本次演讲来自Nvidia GTC21,演讲者是来自Facebook的人工智能研究副总裁兼纽约大学教授Yann Lecun。本次演讲以自监督学习为主,介绍了将不同的自监督学习算法用统一的模型框架来解释的方法。
Yann首先介绍了AI技术中普遍存在的挑战,包括怎样在标签数据较少的情况下进行学习,怎样让模型学会推理以及怎样让模型学会计划复杂的动作序列。Yann又从人类学习的角度分析,指出来在学习时并不需要很多的带标签数据,且人类能根据背景知识以及常识来进行有效的推理。
随后,Yann开始介绍自监督学习算法。自监督学习需要模型能够学会如何填补空白,并在时间或者空间维度上进行预测。问题的关键在于如何表示预测过程中的不确定性和多模态性。自监督学习可以使机器通过观察学习事物的预测模型,并学习感知事物的表征,从而减少标记样本或奖励试验的数量来学习下游的任务。
Yann由此引出了对Energy-Based Model(EBM)的介绍,EBM能够通过能量函数来捕捉依赖关系。Yann介绍了在EBM模型中,对于对单个输入会有多个可能的输出,在推理阶段使用标量的能量函数来对输出进行限制。能量函数只有在输入和输出越匹配时越小,而在推理阶段则是寻找使得能量函数取得最小值的输出。Yann指出,EBM模型与一般的前馈模型不同之处在于,一般的前馈模型学习得到的是一个显示的从输入到输出的函数,而EBM是一个隐式的函数,它用来捕捉输入和输出之间的依赖关系。因此多个输出可以和单个输入之间进行匹配。
EBM模型与概率模型相比,能量函数可以看做未归一化的似然函数的负对数。相比于概率模型而言,EBM在评分函数和目标函数的选择方面提供了更大的灵活性。Yann也指出可以用过Gibbs-Boltzmann分布将能量转换为概率。
Yann接着介绍了在使用EBM进行预测时,引入了隐变量来参数化预测结果,起到对预测的辅助作用,并对隐变量的信息容量进行限制,以防止所有的信息都通过,因此在目标函数的设计中也同样需要引入隐变量。Yann指出,隐变量可以参数化数据流型,而能量函数计算了数据流型之间的距离。Yann也从Gibbs-Boltzmann分布出发,对这种情况下的能量函数进行了推导。
对于EBM模型的训练方面,Yann指出EBM的训练需要降低数据点的能量,并确保在其他地方的能量更高。在训练过程中,需要首先参数化能量函数,并选取训练的输入输出对,并调整能量函数使得其他的输出对应的能量更高。Yann介绍了两种训练的方式,一种是对比的方法,通过降低实际输入输出对的能量值,并提高其他输出的能量函数值;另一种是正则化的方式,通过构建能量函数以及正则化的方式使得低能量区域的能量函数值被限制在一定范围内。
最后,Yann对最近在自然语言处理和计算机视觉领域取得良好效果的方法和架构进行回顾,包括生成对抗网络,自编码器,嵌入算法,知识蒸馏,聚类算法等。Yann从上述两种形式的训练方式出发,分别对这些算法从EBM的角度进行了推导,并指出这些自监督学习算法都可以用EBM框架的两种训练方式来进行解释。