bert之token embeddings、segmentation embeddings、position embeddings

2020-08-26 14:15:01 浏览数 (1)

token embeddings、segmentation embeddings、position embeddings。

解释:http://www.mamicode.com/info-detail-2624808.html

token embeddings:每个词用索引表示,维度(1,n,768)

segmentation embeddings:前一个句子的词用0表示,后一个句子的词用1表示,维度(1,n,768)

position embeddings:维度(1,n,768)

(1)使用WordPiece嵌入(Wu et al., 2016)和30,000个token的词汇表。用##表示分词。

(2)使用学习的positional embeddings,支持的序列长度最多为512个token。每个序列的第一个token始终是特殊分类嵌入([CLS])。对应于该token的最终隐藏状态(即Transformer的输出)被用作分类任务的聚合序列表示。对于非分类任务,将忽略此向量。

(3)句子对被打包成一个序列。以两种方式区分句子。首先,用特殊标记([SEP])将它们分开。其次,添加一个learned sentence A嵌入到第一个句子的每个token中,一个sentence B嵌入到第二个句子的每个token中。

(4)对于单个句子输入,只使用 sentence A嵌入。

0 人点赞