BERT(Bidirectional Encoder Representation from Transformers) 网络架构由 Jacob Devlin 等人提出用于预训练,学习在给定上下文下给出词的 Embedding 表示。BERT 采用了 Transformer 架构的编码器部分用于学习词在给定上下文下词的 Embedding 表示。考虑到语言模型任务为从左往右或从右往左预测下一个词的自回归任务,因此若采用该模式每个词无法依赖于当前上下文下后续词进行词向量表示。为了解决该问题,BERT 提出了两类预训练任务:
掩码语言模型任务
下一句预测任务
下面我们分别来看这两类任务。