复旦大学邱锡鹏教授线上报告:『语言 X』预训练模型:融合结构化知识和跨模态信息。
感谢邱老师的分享以及Windy同学的笔记,完整PPT报告已整理至NewBeeNLP资源库,文末阅读原文一键直达。
简介
近年来,以BERT为代表的预训练模型已经在诸多自然语言理解任务上取得了突破性进展,但也有许多工作表明这些预训练模型仍然存在知识匮乏问题。
目前,将符号知识和跨模态信息加入到预训练语言模型已经成为一个新兴研究方向。本报告介绍如何联合预训练语言 其它数据信息的模型和方法,希望能启发我们后续的研究。
笔记
区别于知识库这种符号表示的方法(one-hot),分布式表示用很多个神经元共同表示原来一个符号的语义。简单理解,分布式表示就是压缩的稠密向量(几百维就够了),也称embedding。
第一步先把词(或字或subword)向量化,然后送到编码器,一般叫上下文编码器,得到每个词的上下文表示,再送到特定任务。
要考虑两方面的设计:
看几个例子了解上述架构如何处理各种任务:
稍微复杂点,可以建立标签之间的依赖关系
序列之间如果没有严格的对齐关系,一般采用编码器-解码器的框架
这里的解码器就是一个特殊编码器(只用前文不用后文)
语言的序列性
预训练
无监督预训练之前也有人做,但当时算力不足
第二代如BERT连着上下文encoder的参数一起训练(现阶段主要)
语言模型本质上也算自监督学习
变体
降噪自编码器
对比学习
替换词检测
PTM survey里有详细介绍
直观感觉,语言知识不需要太多语料,可能很多收益来自于世界知识
那么可以利用已有结构化知识帮助预训练模型
上图的人都是名人,他们的知识很容易获取到,只需要把这些知识注入语言模型
这两个语义空间不对齐
词和词 词和实体 实体和实体 (之间的语义关系和表示)
如何得到知识的动态表示?需要提出一种统一的知识结构
把知识图谱根据entity 挂到词的图
总结:分别预训练,一个注入另一个;或者构造一个联合图,同时训练
展望总结
对比学习在跨模态上的应用,只是对比任务比较难设计(对比学习更简单,但是MLM在NLP上看上去更合理,核心可能不在于具体是怎样的任务,而是在于充分暴露其中的知识)未来对比学习可能非常重要。
deep infomax(DIM)比较值得探究。
预训练模型的质量、知识图谱的质量如何评测?如果我们对知识本身不是很有信心,如何期待能用知识融合提升效果呢?
好像没有很好的做质量评价的工作,把所有知识表示出来是非常困难的,有个任务叫知识补全。
预训练知识有限,世界知识无限。
如何增强预训练模型,例如文档表示知识。