token embeddings、segmentation embeddings、position embeddings。
解释:http://www.mamicode.com/info-detail-2624808.html
token embeddings:每个词用索引表示,维度(1,n,768)
segmentation embeddings:前一个句子的词用0表示,后一个句子的词用1表示,维度(1,n,768)
position embeddings:维度(1,n,768)
(1)使用WordPiece嵌入(Wu et al., 2016)和30,000个token的词汇表。用##表示分词。
(2)使用学习的positional embeddings,支持的序列长度最多为512个token。每个序列的第一个token始终是特殊分类嵌入([CLS])。对应于该token的最终隐藏状态(即Transformer的输出)被用作分类任务的聚合序列表示。对于非分类任务,将忽略此向量。
(3)句子对被打包成一个序列。以两种方式区分句子。首先,用特殊标记([SEP])将它们分开。其次,添加一个learned sentence A嵌入到第一个句子的每个token中,一个sentence B嵌入到第二个句子的每个token中。
(4)对于单个句子输入,只使用 sentence A嵌入。