BERT模型详解

时间 2020-10-21 标签函数性能学习编码 spa code orm blog token 文档

1 简介

BERT全称Bidirectional Enoceder Representations from Transformers，即双向的Transformers的Encoder。是谷歌于2018年10月提出的一个语言表示模型（language representation model）。

预训练方法（pre-trained）：
- 用Masked LM学习词语在上下文中的表示；
- 用Next Sentence Prediction来学习句子级表示。

Bert以前的几年，人们经过DNN对语言模型进行“预训练”，获得词向量，而后在一些下游NLP任务（问题回答，天然语言推断，情感分析等）上进行了微调，取得了很好的效果。函数
对于下游任务，一般并非直接使用预训练的语言模型，而是使用语言模型的副产物--词向量。实际上，预训练语言模型一般是但愿获得“每一个单词的最佳上下文表示”。若是每一个单词只能看到本身“左侧的上下文”，显然会缺乏许多语境信息。所以须要训练从右到左的模型。这样，每一个单词都有两个表示形式：从左到右和从右到左，而后就能够将它们串联在一块儿以完成下游任务了。性能
综上，从直觉上讲，若是能够训练一个高度双向的语言模型，那将很是棒。学习

能够和同是双向的ELMo对比一下：编码

ELMo:
\(P(w_i|w_1, w_2, ..., w_{i-1})\) 和 \(P(w_i|w_{i+1}, w_{i+2},...,w_n)\)做为目标函数，独立训练处两个representation而后拼接。
BERT的目标函数：
\(P(w_i|w_1, ..., w_{i-1}, w_{i+1},...,w_n)\)以此训练LM。

-spa

Bert的Embedding由三种Embedding求和而成。
Token Embeddings 是指的词（字）向量。第一个单词是CLS标志，能够用于以后的分类任务。？？？？
Segment Embeddings用来区别两种句子，预训练除了LM，还须要作判断两个句子前后顺序的分类任务。
Position Embeddings和Transformer的Position Embeddings不同，在Transformer中使用的是公式法在bert这里是经过训练获得的。

在将单词序列输入给 BERT 以前，每一个序列中有 15％的单词被 [MASK] token 替换。而后模型尝试基于序列中其余未被 mask 的单词的上下文来预测被mask的原单词。最终的损失函数只计算被mask掉那个token。code
若是一直用标记[MASK]代替（在实际预测时是碰不到这个标记的）会影响模型，具体的MASK是有trick的：orm
随机mask的时候10%的单词会被替代成其余单词，10%的单词不替换，剩下80%才被替换为[MASK]。做者没有说明什么缘由，应该是基于实验效果？blog
要注意的是Masked LM预训练阶段模型是不知道真正被mask的是哪一个词，因此模型每一个词都要关注。token
训练技巧：序列长度太大（512）会影响训练速度，因此90%的steps都用seq_len=128训练，余下的10%步数训练512长度的输入。文档
具体实现注意：
- i) 在encoder的输出上添加一个分类层。
- ii) 用嵌入矩阵乘以输出向量，将其转换为词汇的维度。
- iii) 用softmax计算词汇表中每一个单词的几率。
BERT的损失函数只考虑了mask的预测值，忽略了没有掩蔽的字的预测。这样的话，模型要比单向模型收敛得慢，不过结果的情境意识增长了。

LM存在的问题是，缺乏句子之间的关系，这对许多NLP任务很重要。为预训练句子关系模型，bert使用一个很是简单的二分类任务：将两个句子A和B连接起来，预测原始文本中句子B是否排在句子A以后。
具体训练的时候，50％的输入对在原始文档中是先后关系，另外50％中是从语料库中随机组成的，而且是与第一句断开的。
为了帮助模型区分开训练中的两个句子，输入在进入模型以前要按如下方式进行处理：
在第一个句子的开头插入 [CLS] 标记，在每一个句子的末尾插入 [SEP] 标记。
将表示句子 A 或句子 B 的一个句子 embedding 添加到每一个 token 上，即前文说的Segment Embeddings。
给每一个token添加一个位置embedding，来表示它在序列中的位置。
为了预测第二个句子是不是第一个句子的后续句子，用下面几个步骤来预测：
整个输入序列输入给 Transformer 模型用一个简单的分类层将[CLS]标记的输出变换为 2×1 形状的向量。
用 softmax 计算 IsNextSequence 的几率
在训练BERT模型时，Masked LM和 Next Sentence Prediction 是一块儿训练的，目标就是要最小化两种策略的组合损失函数。

效果好，横扫了11项NLP任务。bert以后基本全面拥抱transformer。微调下游任务的时候，即便数据集很是小（好比小于5000个标注样本），模型性能也有不错的提高。

做者在文中主要提到的就是MLM预训练时的mask问题：