作者主要的研究的问题是在一定人物设定背景下的对话的个性化:
这里的人物设定被写在一个document中,即document-grounded。模型整体架构如下:
- Encoding Layer 就是在用Self-Attention
- Fusion Layer 其实就是做了Cross-Attention:
- Matching Layer 有3个需要match的对: {Ui,R}{U^i,R}{D^j,R} 其中:U^i=[Ui,U^i,1...U^i,m] match的方式和MRFN很相似,以 {U^i,R} 为例:
- Aggregation Layer 用CNN从3个匹配矩阵中抽取匹配向量,连接起来,预测匹配度。