机器之心原创
作者:仵冀颖
编辑:Hao Wang
2019 年 KDD 将于 8 月 4 日至 8 日在美国阿拉斯加州安克雷奇市举行。作为数据挖掘领域顶级的学术会议,KDD 今年的录取依然非常严格,Research Track 的接受率为 14%。无论传统的研究方向例如神经网络、知识发现等,还是近年火爆的图神经网络、推荐系统等方向都有不少新的算法出现。此外,相关技术结合具体应用领域的实践和突破也是亮点之一,一些文章是该领域中相关技术的首次实践。
数据挖掘、深度学习以及其他机器学习的模型、算法在过去几年一直保持快速发展,研究人员不断提出了大量优秀的模型、算法等,在实验条件下,模型和算法的准确度、处理速度等性能不断提高。一些模型和算法也被应用于实践中,获得了很好的效果。我们从 2019 年 KDD 的录用论文中选取了几篇重点阐述技术实践和突破的文章进行分析和介绍。结合具体行业的特点,例如在线学习系统原始数据异构性强、医疗行业专业词汇可理解性差、气象数据稳定性差以及在线推荐系统智能化需求提升等,研究人员对经典的模型和算法进行了改进和参数调整,以适应具体的场景、满足应用的需要。
本文将对以下四篇论文进行介绍:
- QuesNet: A Unified Representation for Heterogeneous Test Questions
- Unsupervised Clinical Language Translation
- Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting
- Exact-K Recommendation via Maximal Clique Optimization
1.QuesNet: A Unified Representation for Heterogeneous Test Questions
原文地址:https://arxiv.org/pdf/1905.10949.pdf
本文是 Research Track 中 Machine Learning Themes 方向的一篇文章,主要是针对在线教育提出的基于表示学习的应用,本文作者来自中科大和科大讯飞。近年来在线学习系统,包括 Khan Academy、LeetCode 等,为不同年龄段的用户提供在线学习场景,基于问题语料库的智能分析,系统可为用户提供个性化的学习服务。现有方法主要是利用自然语言处理技术将问题语句直接转化为句法模式或语义编码,之后利用监督学习方法优化模型,将编码结果应用于后续数据分析加工处理。这些方法依赖于大量的手工标记数据,由于标注数据的缺乏和准确度不高,在线学习系统的个性化数据分析、推送性能受到很大影响。
问题描述
本文提出了一种直接利用大规模无标记问题语料库的无监督学习模型。与传统算法相比本文工作的最大特点是直接利用无标记的问题语料库进行智能分析,这就解决了标记数据缺乏的问题。然而,针对在线学习智能推送的无监督学习存在三个主要难点:第一,应用于教学系统的问题数据具有连贯异构的特点,如图 1 所示,语料库中的问题形式有文本(红色)、图像(绿色)以及逻辑先验知识(黄色)等。第二,针对语料库的分析不是简单基于语言环境完成文本直译(提取低层特征),还需要考虑它所包含的逻辑信息(提取高层特征)。第三,在实践中无标记问题语料库必须是简单易获取的,从而能够支持后续数据加工处理,满足在线应用的需求。
Figure 1: Two examples of heterogeneous questions.
本文提出一种基于统一特定域的理解性深度学习算法 QuesNet。QuesNet 能够将某一问题的异构数据聚合到统一的特定域,此外能够提取语义信息和逻辑知识等。QuesNet 与多种不同的后续算法组合使用,能够有效提高数据分析结果、改进在线产品的应用效果。
QuesNet 模型构建
QuesNet 主要包括三个部分:嵌入层、内容层和语句层。其中,嵌入层中将异构的语料信息映射到统一域中,内容层中应用多层双向 LSTM 提取低层语义特征,而语句层遵循自注意力机制实现高层逻辑知识信息与低层语义特征的融合。
Figure 2: QuesNet model architecture.
图 2 给出 QuesNet 模型结构。图 2(a) 为 QuesNet 的整体三层结构,其中图 2(b) 为嵌入层,该层实现异构语料数据嵌入;图 2(c) 为内容层,应用双向 LTSM 提取特征,双向 LSTM 具体结构见图 2(d);图 2(e) 为语句层,基于全局自注意力机制实现。
预训练
在预训练阶段,本文提出一个无监督两层分级训练算法进一步从向量中提取问题信息。嵌入层中使用 Word2Vec 针对整个语料库计算初始的词-向量映射。针对低层特征,提出一种孔语言模型(holed language model,HLM)从大规模语料库中提取语义信息,其中 HLM 的目标函数同时考虑上下文的语义环境。针对高层特征,提出一种特定域的目标函数提取针对每个问题的逻辑和知识理解。
Figure 3: Pre-training of QuesNet.
图 3 给出 QuesNet 的预训练过程。其中图 3(a) 表示嵌入预训练过程,图 3(b) 为两级目标函数,针对低层特征利用 HLM 进行处理(中间),而针对高层特征提出了特定域目标函数(右侧)。
实验分析
在实际应用中,在线学习的任务项种类繁多,针对特定的任务,需要对 QuesNet 进行精调处理,以便更好的满足后续任务的要求。本文实验中所有数据均来源于科大讯飞的在线学习系统智学网(http://www.zhixue.com),数据由在线应用直接产生,没有经过其他预处理,具有较强的异构性。(http://www.zhixue.com),Zhixue 中的数据来源于真实应用系统,具有很好的异构性。本文选择传统的监督学习算法、ELMo、BERT 和 H-BERT 作为实验对比,同时针对三种任务进行实验:知识映射、难度估计和学生表现预测。)
本文选择的对比算法包括:传统的监督学习算法、ELMo、BERT 和 H-BERT。(http://www.zhixue.com),Zhixue 中的数据来源于真实应用系统,具有很好的异构性。本文选择传统的监督学习算法、ELMo、BERT 和 H-BERT 作为实验对比,同时针对三种任务进行实验:知识映射、难度估计和学生表现预测。)
实验任务包括:知识映射、难度估计和学生表现预测。(http://www.zhixue.com),Zhixue 中的数据来源于真实应用系统,具有很好的异构性。本文选择传统的监督学习算法、ELMo、BERT 和 H-BERT 作为实验对比,同时针对三种任务进行实验:知识映射、难度估计和学生表现预测。)
表 1 中给出不同算法在完成不同任务时的实验效果,由表 1 可知,针对在线学习系统问题语料库分析的特定任务,本文提出的 QuesNet 效果最优。
Table 1: Performance of comparison methods on different tasks.
分析和思考
近年来,国内各类在线学习网站不断涌现,新型的在线模式冲击了原有的线下学习模式,使得学习不再受时间、地点的限制,使更多的人有公平学习、接受先进教育的机会。此外,在线学习模式依托大数据、人工智能、深度学习等技术,能够实现用户精确定位、需求精准分析,使得学生接收到更好的课程推送、知识推送。本文是智学网问题语料库分析的技术实践,可推广应用到类似的在线应用、问答推送、智能客服等领域。
2.Unsupervised Clinical Language Translation
原文地址:https://arxiv.org/pdf/1902.01177.pdf
本文是 Applied Data Science Track 中 Language Models and Text Mining 方向的一篇文章,主要是解决医学文本的分析和处理问题,属于表示学习中自然语言处理技术与医学应用相结合的技术实践,作者全部来自于 MIT。在医疗诊断过程中医生往往使用专业的医学术语描述病情和治疗方案,而病人往往无法理解诊断报告,无法准确自行描述病史、接受的诊疗方式等。利用机器学习和自然语言处理技术辅助医学文本的分析,由于医学语言的专业性以及缺少有标记的医疗文档数据,现有算法的处理效果都不理想。本文针对医生编制的治疗文本和患者自述的病情文本翻译问题,提出了一种无监督医学语言翻译模型,模型无需人工干预处理的语料库作为辅助参考。
模型
应用于医疗行业的文本分析技术主要是基于词典或基于模式的方法,这些传统方法能够完成单词的翻译但不能做整句翻译,此外翻译效果依赖于大规模已标注训练集,无法在真实的医疗环境中推广应用。本文提出了一个无监督医学语言翻译模型。首先,构建一个无监督的单词翻译系统将医学专业词汇翻译为病人常用的语言。第二,利用一个统计机器翻译系统 (Statistical Machine Translation, SMT)基于上下文相关词汇和语法信息等进一步提升翻译质量。模型整体结构见图 1。
Figure 1: Overview of our framework.
如图 1 所示模型主要包括两步实现:(1)利用无监督词表示学习和双语词典感应方法(Bilingual dictionary induction,BDI)实现单词级别的翻译;(2)基于第一阶段 BDI 处理后对齐的词嵌入空间,利用统计机器学习系统和反向传递优化算法实现语句级别的翻译。
第一步,构建一个无监督的单词翻译系统实现单词级别的翻译。
- 首先利用无监督跳跃图算法(skip-gram)分别学习医学文本和病人文本的语料库,提取语言嵌入空间,同时保持语义和语言属性。skip-gram 算法的原理是针对一条语料中的每个标志,通过训练过程使每个标志在大小为 k 的窗口内的全部表示概率值为最大值。进一步,当考虑子字(sub-word)级别的特征时,能够有效捕获语料中的词汇和形态特征,从而提升单词级别的翻译效果,本文使用字符级 n-gram 属性作为这种子字级别的特征。
- 使用 BDI 方法完成单词级别的翻译。BDI 的目的是使得原始语言和翻译后语言对应的嵌入空间尽量相似。人类语言使用相似的语义表示相似文本表达,不同语言的词嵌入空间计算得到的最近邻图是同态的。因此,理论上如果嵌入空间具有相似的分布形状,则可以对由相同算法训练的嵌入空间进行对齐。本文使用两种先进的 BDI 方法实现词嵌入空间对齐:iterative Procrustes process(MUSE)和 self-learning(VecMap),使用特征向量值对比嵌入空间相似度。词嵌入空间对齐的目的是获得线性映射矩阵 W。为了减少对齐过程中的监督,本文不使用任何映射字典,而是直接处理两段英语语料特征,利用两段语料中的相同字符串构建合成种子字典。源语言和目标语言中的相同字符串可用作学习映射矩阵 W 的锚(anchor),本文介绍使用锚后 MUSE 的生锈过程和 VecMap 的自学习过程。如不考虑锚信息,可使用对抗性学习方式计算 W。本文使用 CSLS 而不是简单的最近邻进行最近邻词检索。
第二步,本文利用 SMT 实现语句级别的翻译。
- 首先利用 KenLM 语言模型 (https://github.com/kpu/kenlm) 对单词翻译的结果初始化处理。本文用无监督词表示学习和 BDI 算法训练的对齐嵌入空间来初始化语句级别的翻译。使用的统计优化计算公式为:
- 其中,cos 表示计算的为源医学专用语言 p 和目标病人语言 c 之间的余弦距离。 利用初始化得到的短语表和语言模型建立 SMT 系统,将医学专用语句转化为病人可理解的简单语句。
- 执行反向翻译处理迭代地生成并行数据,从正向、反向两个方向多次迭代不断更新语句、短语表和语言模型,从而改进翻译的效果。
实验
本文使用 MIMIC-III 数据库进行实验分析,该库数据来源于美国某大型三级医疗中心 58976 名 ICU 患者的病例,选取其中 59654 份病历文本用于实验。病例文本中通常包含多个章节,本文实验中选择「现病史」和「基本医疗情况」两个章节,这两个章节也是医学专业词汇应用比较多的部分。尽管医生语料库和病人语料库都来源于 MIMIC-III,但二者的内容之间并没有太多对应的部分。本文从中选择了 4605 条重叠的英文字段用于生成 BDI 中所使用的种子字典。此外,还选取了部分公开英文版本的 MedlinePlus 语料库中的内容进行实验,目的是验证引入这部分语料库是否能够提高 BDI 的效果。数据预处理阶段将语料库中包含的病人个人健康信息全部删除,应用 Stanford CoreNLP(https://stanfordnlp.github.io/CoreNLP/)和 NLTK(http://www.nltk.org/)两个工具进行了文本分节和句子分片处理。本文使用 MIMIC-consumer 语料库或通用语料库构建句子翻译的语言模型。
本文实验从单词翻译和语句翻译两个角度验证模型的有效性。针对单词级别的翻译,本文进行了大量实验以论证应用子字级别特征辅助翻译的效果、MUSE 和 VecMap 两种 BDI 方法的效果、利用第三方语料库 MedlinePlus(https://medlineplus.gov/)辅助翻译的效果以及词嵌入空间维度的最优选择等问题。表 1 给出实验结果数据,实验条件包括 MUSE、VecMap 以及是否应用增强语料(MedlinePlus)等情况,此外实验基于临床医生设计的语句对以及消费者健康词汇 (Consumer Health Vocabulary,CHV) 先验语句对等。使用 fastText skip-gram 训练词嵌入空间。对于子字信息,本文考虑了 bi-gram 到 5-gram。本文选择了一个 100 维参数化,这是研究 BDI 算法和数据扩充的常见方法。实验结果的精度为标准偏差 k(p@k)×100。标注为加粗的结果均为实验结果最优值。
Table 1: Performance of nearest neighbors retrieval using CSLS.
针对语句级别的翻译,本文使用 SMT 架构的模型验证翻译效果,主要指标包括:子字信息、BDI 的锚信息和在特定或普适性语料库中训练得到的语言模型的有效性。本文实验阶段使用的是 Moses 作为 SMT 引擎,利用有监督的基于字典的模型 CHV 作为实验基线。本实验中所使用的 SMT 具体配置如表 2。
Table 2: Configurations of statistical MT (SMT) for sentence translation.
表 3 给出使用我们的无监督 SMT 框架进行语句级别翻译的实验结果。这些值是关于翻译句子正确性和可读性的平均意见得分的平均值(标准差)。可读性仅适用于正确性得分大于等于 4 的句子。基线采用监督的基于字典的模型 CHV (http://www.kdh-nlp.com/research/chv-project/)。本文根据临床医生判断的正确性、临床医生和非临床医生的可读性来评估翻译效果。配置 F 在所有 SMT 配置中正确性最高,其配置为在 BDI 中使用带锚的 300 维词嵌入空间,并采用模拟用户语料库进行语言建模。接着是配置 E、D、C、B、A,然后是 N,实验结果证明语句翻译最关键的部分是使用相同的字符串作为 BDI 的锚定。如果没有使用锚(配置 N),只能保证翻译完的句子是正确的,无法达到可读性评估的阈值(正确性得分≥4 才会进行可读性评估)。
Table 3: Performance of sentence translation using our unsupervised SMT framework.
分析和思考
本文是机器学习、自然语言处理等在医疗领域的技术突破,首次提出了针对医疗文本的无监督学习模型。通过在优化过程中引入特定参考信息、语言特征,例如医学字典中的专业领域信息等,提升医学专业性翻译的效果。此外,引入一些上下文表示也能够改正嵌入模型的效果。作者计划后期将本文模型推广为在线应用供公开使用。本文提出的模型推广应用后,能够大大提升病人卫生保健和个体化用药的水平。
3.Deep Uncertainty Quantification: A Machine Learning Approach for Weather Forecasting
原文地址:https://arxiv.org/pdf/1812.09467.pdf
本文是 Applied Data Science Track 中 Environment and Sustainability 方向的一篇文章,主要目的是基于历史数据进行天气情况的预测。气象数据,包括温度、风力、湿度等,与人们的生产生活息息相关,同时影响社会生活的各个方面,例如交通拥堵情况、大气污染情况以及电力供应情况等,因此对气象数据的分析和预测至关重要。目前,气象数据分析预测主要采用的是数值计算方式(Numerical Weather Prediction,NWP),模型一般基于大气水热动力学方程。由于气象数据本身具备一定规律性,在初始解选择较好的情况下,NWP 可以获得较好的预测效果。NWP 的数值计算过程计算复杂度较高且计算稳定性较差。随着大数据技术的不断发展,数据驱动的机器学习模型逐步应用于处理复杂的分析预测问题。本文首次提出将深度学习方法应用于气象数据预测问题,依托深度学习强大的处理能力,实现对多个不同地点未来不同天气阶段的多个气象变量同时预测。
模型
近年来,数据的采集来源越来越多,气象大数据可用性不断提高,研究人员发现将数据驱动方法引入气象学可以取得较好的分析预测效果。数据驱动方法的优点在于,通过快速学习和建模技术,无需求解复杂的微分方程即可预测。传统的单点预测(即点估计)方法应用于气象数据分析缺少可信度和灵活性。本文基于深度学习和不确定性量化提出了一种统一的深度学习方法,预测不同气象站的多个气象变量,该方法具有下述几点贡献:
第一,本文提出了一种深度学习和信息融合机制,能够有效应用于气象数据预测。该方法是首次将气象历史观测数据与 NWP 结合用于处理气象数据预测问题。
第二,本文使用 NLE(Negative log-likelihood)损失函数,与 MSE、MAE 等损失函数相比,使用 NLE 能够提升点估计的一般化程度。此外,本文方法使用深不确定性量化机制(deep uncertainty quantification,DUQ)而不是传统的贝叶斯深度学习(Bayesian deep learning,BDL),目的是更好的与当前主流的深度学习框架融合使用,例如 Tensorflow 和 PyTorch。此外,本文还引入反向传播机制(BP)用于优化。
第三,除了简单的点估计,DUQ 同时能够实现连续区间预测。因此,本文的方法除了可以用于气象数据预测外,也可用于解决其他时间序列回归问题。
第四,本文提出了一种有效的深度集成策略,能够大大提升预测的准确度。
本文提出的 DUQ 基于经典的序列对序列架构(seq2seq,即编码-解码架构),近年来根据不同任务针对该架构提出了很多改进手段,但大多数都侧重于从结构角度进行改进,目的是使点估计更精确。本文首次将天气预报的连续不确定性量化引入架构中,具体架构见图 1。
Figure 1: DUQ for sequential point estimation and prediction interval.
编码阶段提取观测到的气象数据特征序列(E(1)、E(2)...)的潜在表示 c 如下式:
潜在表示 c 能够反映当前的气象动态信息,之后转换成解码阶段的初始状态。解码阶段基于 c 能够求解气象预测相关的站点标识、预测时间标志以及 NWP 预测。图 1 中两个嵌入层的目的是引入站点标识和时间预测标志,并自动学习其嵌入表示。
学习阶段,DUQ 针对每个时间步长预测两个值:预测均值和方差参数化高斯分布。本文使用 NLE 作为损失函数,NLE 基于合理的假设计算高斯分布,计算公式如下:
整个学习阶段的目标是最小化 NLE。然而深度模型的优化很容易导致训练集的过度拟合,因此需要在验证集上实现早期停止。
训练后,可以针对任意输入值计算统计推理如下:
本文采用一种简单有效的集成机制:每个模型都是一个基于指定节点初始化的 DUQ 模型,集成的点估计是所有基于 DUQ 的模型的平均点估计,且具有可扩展性和易实现性。
实验
本文基于中国气象局公开数据进行实验,应用不同的回归模型、深度学习模型等验证本文提出算法的有效性,此外针对参数的选择、损失函数的选择,以及是否参考最近的气象数据用于深度学习预测等都进行了大量的实验。
Table 1: The SS performance of different methods on 9 days.
表 1 给出了基于相关技能得分(the associated skill score,SS)指标的实验结果,最右侧 P-value 列表示使用单尾配对 T 检验方法将性能最佳的方法 DUQEsb10 与其他方法进行比较的结果。由表 1 中实验结果可知,基于深度学习的模型(DUQ 和 Seq2Seq)的预测效果优于非深度学习的模型(SARIMA,SVR,GBRT)。对于 DUQ 模型来说,使用不同的深度学习层数、节点数等对模型预测效果也有影响。DUQnoOBS 表示应用深度学习模型但不融合近期气象数据动态变化情况的模型,由实验结果可知,模型的效果不如融合了相关数据的 DUQ300-300。
Table 2: The RMSE performance of different methods on 9 days.
表 2 给出了基于 RMSE 的实验结果,由于 RMSE 和 SS 的计算理念不同,表 1 和表 2 中不同模型的实验效果不完全一致,但无论采用哪个指标,DUQEsb10 深度学习模型都能取得最优的效果。
由表 1 和表 2 可知,由于气象数据每日的变化非常大,没有任何一个模型能够保证每天的预测效果都是最优。DUQEsb10 的总体表现最优,主要是得益于所应用的集成学习方法具有一定的稳定性。
分析和思考
本文是深度学习算法技术实践的探索,深度学习发展至今出现大量的模型以及参数选择、组合模型等,在不同的实验条件下用于解决不同的问题都取得了较好的效果,不少研究人员开始尝试将成熟的深度学习算法应用于解决实际问题。气象数据具有稳定性差、单日突变可能性大等特点,本文针对气象数据预测的问题具体选择深度学习模型,并有针对性的调整损失函数、参数等的选择,对于实践应用有着很好的启发意义。
4.Exact-K Recommendation via Maximal Clique Optimization
原文地址:https://arxiv.org/pdf/1905.07089.pdf
本文是 Research Track 中 Recommender Systems 方向的一篇文章,作者主要来自阿里巴巴。本文是互联网应用中推荐问题的技术突破,提出了一种基于经典最大团优化(Maximal Clique Optimization)的推荐模型,即 exact-K 推荐。与传统的 top-K 推荐问题(最优的 K 个选项)不同,exact-K 推荐的结果是一个包含有 K 个组成的卡片。
模型
文章首先证明 exact-K 推荐能够表示为一个经典最大团优化问题。在推荐系统问题中,给定 N 个待选项目,exact-K 推荐求解目标是得到最优的 K 个选项且通过一个完整的卡片表示,该卡片是满足用户需求的最优选择。表征为约束最优化问题如下:
其中θ为生成模型的参数,A 为最终参与排序的卡片,S 为原始数据,r=1 表示相关/偏好。从图角度分析,上述优化模型可以转化为从一个图中求解 K 个点的团,该团能够满足上式中的优化目标。而图中每个节点的权重用点选率(click through rate,CTR)来计算。推荐问题可转换为最大团优化问题如下:
其中 P 表示节点权重。直接求解该模型有三个问题:一是单个节点的 CTR 相互独立,二是未考虑一个卡片中不同节点间的互相关性,三是该模型没有全局最优解。
为了解决上述不足,本文提出一种图注意力网络 Graph Attention Networks(GAttN)模型,GAttN 遵循注意力机制的编码-解码框架。GAttN 的基本框架见图 1。
Figure 1: The key modules of Graph Attention Networks (GAttN).
输入阶段,针对图 G(N, E) 的结点计算其输入表示。给定候选集合 S 和用户 u,任一节点的输入 Xi 可使用具有非线性激活 ReLU 的简单全连接神经网络表示为:
图 1(b)为编码阶段计算图示。编码阶段本文使用一个自注意力机制模型,它是注意力机制的一种特殊情况,只需要一个单独的序列来计算其表示。到目前为止,自注意力机制已经成功地应用到许多自然语言处理任务中,我们利用它对图进行编码并生成节点表示。给定输入特征向量 Xi,编码层首先计算图节点表示 hi 为:
之后,通过 L 层自注意力机制更新节点嵌入表示,每一层由两个子层组成:多头自注意力(Multi-head self-attention,MHSA)子层,和前馈(feed-forward,FF)子层。MHSA 子层的基本组成部分是缩放点积注意力,它是点积(乘法)注意力的变体。缩放点积注意力根据以下公式计算自注意力分数:
FF 子层由两个线性变换组成,中间有一个 ReLU 激活。
此外,每个子层还包含一个跳过连接和层规范化处理。
图 1(c) 为解码阶段的处理过程。解码阶段参考了编码过程中图节点的嵌入表示信息,同时利用注意力机制选择团。通过利用 RNN 和波束搜索技术(beam search),GAttN 的解码处理能够有效捕获一个卡片中不同节点的互相关特征。应用 RNN 架构解码器计算解码输出节点 A={a1,...aK}。在解码推理阶段,采用了波束搜索技术。波束搜索技术用于扩展搜索空间,同时针对一个团内(一张卡片的项目中)多个节点的组合得到最优解。
此外,本文提出一种具有行为克隆和增强学习特性的强化学习方法(Reinforcement Learning from Demonstrations,RLfD)进行 GAttN 的训练。RLfD 同时使用奖励(Reward)和示范(Demonstration)两种损失函数。其中奖励损失函数为:
示范学习过程可以看做是行为克隆模仿学习,因此引入示范能够提升学习的效率。示范的损失函数为:
RLfD 同时使用奖励和示范的损失函数为:
实验
本文在实验部分给出了大量的实验证明模型在处理 exact-K 推荐问题时的有效性,选用了实验数据集 MovieLens(https://movielens.org/)以及实际应用场景中淘宝搜索推荐的数据集。传统的推荐系统排名评估指标不适用于 exact-K 推荐问题,本文提出了命中率(Hit Ration,HR)和精确度(Precision,P)两个指标。本文选择经典的排序模型 Pointwise Model(DeepRank)、Pairwise Model(BPR)以及 Listwise Model(Listwise-GRU、Listwise-MHSA)作为对比。
Table 1: Overall performances respect to different methods on three datasets.
表 1 给出不同模型在三个数据库中的实验结果,在不同的实验条件下,本文模型都取得最优的效果。此外,由表 1 可以看出针对同样的模型架构(Listwise),使用自注意力机制的 MHSA 的效果优于 GRU。
Figure 2: An example of the attention mechanism in the encoder self-attention in layer 2.
图 2 给出在淘宝中搜索帽子时的命中结果。在编码阶段的 MSHA 过程中考虑了自注意力机制,因此在搜索帽子时能够有效命中与帽子相关的围巾、手套等。
此外,本文还对比了解码阶段使用奖励和示范两个损失函数的影响。
Figure3: Performance of P@4 and HR@4 with different coefficients α(rewardor demonstration)in loss function
由图 3 可知,当只考虑示范损失函数时(α=1),可以获得局部最优解。而同时考虑示范和奖励损失函数时,本文的方法可以获得更好的效果。
分析和思考
本文是深度学习在实践中的技术突破,应用需求来源于真实的互联网搜索场景,所提出的模型能够大大提高互联网搜索的友好性。模型中的参数选择、框架选择等都是结合应用需求提出的,例如在 MSHA 过程中引入自注意力机制,能够推送用户可能感兴趣的其它产品。算法分析与应用实践不是割裂的,应用实践中的需求能够推动算法和技术的改进,而应用于实际则是科学研究和技术发展的重要目的。
作者介绍:仵冀颖,工学博士,毕业于北京交通大学,曾分别于中国香港中文大学和中国香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。
本文为机器之心原创,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com