Another step toward demystifying deep neural networks
有人说科研很苦,有人却说科研很酷,希望在这里能让你感受到不一样的科研。
以下是本篇论文的思维导图。此图包含本文所有核心内容,篇末为文字总结,如果各位看官感兴趣,且还听我继续分说。
ps:以下内容为个人观点,如有雷同,不胜荣幸,如有错误,欢迎指出。
深度学习在图像和文字识别领域以及取得了重大进展并且运用到了各行各业中,但是由于其的不可解释性,使得寻求一种可解释的理论成为数据科学的“圣杯”。本文就近期的一篇关于可解释深度学习解决方案的论文(Papyan et al. 2020),阐明其的贡献。
以有监督学习为例,深度学习是指使用大量训练数据,训练出一个拟合函数,使得其能在测试集内可以对数据进行很好地分类(预测)。所谓“深度”是指参数多达百万,并且结构有很多层,组成卷积、降采样、修正线性单元、批归一化等。“学习”是指利用每个样本的已知标签,最小化损失函数(预测标签和真实标签的差),利用梯度下降算法(复合函数求导)更新参数,逐步迭代直至误差降到可接受范围(当然还包括在过拟合和欠拟合之间反复挣扎的调参(炼丹))。深度学习并没有任何理论指导,是一个反复实验的过程,并且无法获得全局最优解,深度学习参数有时比训练数据还多,却仍可以正常工作,这被称为“双重下降”效应。
fig.1 高度参数化网络的“双重下降”效应;在越过interpolation threshold后虽然训练集误差以及不再下降,但是测试集误差继续降低
对于所提论文的分析,作者基于经验猜想经过充分迭代后,过度参数化的,网络会收敛到理想状态并拥有四个属性:每个类别所有示例的特征向量均集中在孤立的点上;这些孤立的点距离最大并位于原点中心的球体上;线性分类器矩阵与这些集中点完美匹配;线性分类趋于简单的最近邻算法。由此可知无论从泛化能力还是对噪声的鲁棒性来说,深度神经网络的性能已经达到极限,但由于此论文进行了一系列模拟和使用了几个流行的网络结构获得的结果,我们应该抱有是否仅代表当前时代当前环境的怀疑(时代局限性)。
有人说上篇文章的损失函数(交叉熵)的选择注定了它的结果(孤立点集中和分类间隔距离最大)。但是关于优化策略、架构选择、损失函数选择等如何使我们得到最终的理想结果,这是个悬而未决的问题。上篇文章为非常复杂的深度学习机器提供了简单直观的行为,但是否可以用在回归、综合学习以及生成对抗网络还有待研究。尽管论文取得了很好地结果,但是这有很大地过拟合风险(early stopping和avoiding interpolation是常用的正则化方法),以及需要进行误差校准。
注:
1.有监督学习:在训练算法时,我们不仅将训练数据的自变量提供给算法,也要将因变量提供给算法以便不断修正预测因变量与真实因变量之间的差
Elad M, Simon D, Aberdam A. Another step toward demystifying deep neural networks[J]. Proceedings of the National Academy of Sciences, 2020.
Papyan V, Han X Y, Donoho D L. Prevalence of neural collapse during the terminal phase of deep learning training[J]. Proceedings of the National Academy of Sciences, 2020, 117(40): 24652-24663.