北大朱占星:疫情下的深度学习科研

2022-03-31 21:30:21 浏览数 (1)

刚发现上一篇文章是去年6月份写的,转眼间一年过去了,一年多各种事情接踵而至,一直没闲下来写一篇文章。这一个学期也是被疫情整废了,在家里在办公室对着屏幕叨叨了一整个学期,没有现场互动,长期下去真不是个事,希望一切能尽快恢复。

科研方面,一周各种的科研讨论,重复无数次zoom,腾讯会议 :)。不过ICML,NeurIPS的deadline照旧,连续几年,俨然成为“会奴” :)。连 NeurIPS都成为线上会议了,基本宣布这一年的国际会议都废了。

其实抽出空写了个知乎问题的回答[1],恰好自己了解一些,基本从理论、算法和应用方面简述了当下深度学习的各个重要的方向,大家感兴趣的话可以瞅两眼。

这一年科研方面自己主要还是关注深度学习目前面临的一些瓶颈难题,因为好做的问题都基本被搞定了,剩下的都是硬核了。主要集中在深度学习的理论理解,深度学习在受限环境下的算法设计,比如在对抗环境下以及在小样本的情形下的问题。

1 深度学习的理论理解

说到深度学习的理论理解,可以说目前最硬核的问题,大家目前也没摸到门该怎么做下去,大家越研究越发现更多的搞不懂的地方。neural tangent kernel算是个小突破,起码在宽网络情形下说清楚了一些问题,还是回归到kernel learning下才讨论清楚。回归到深度学习更加本质的问题还是(仅是个人看法)data, model, learning algorithm 三者交互的分析,目前的分析手段基本上是无能为力。不过大家还是努力的往前走,起码设定个小小的目标,搞清楚这三者之一也算不错。组里的学生和合作者一直做的一件事情是把 learning algorithm 和一些训练技巧想办法搞清楚,其中比较重要的是 SGD 算法和其中一些的高级“炼丹术”,比如batch normalization和knowledge distillation。

延续我们 ICML 2019 年关于分析 SGD 的梯度噪声的协方差矩阵结构和目标函数的局部的曲率矩阵配合[2],导致其可以非常高效的逃离局部的 sharp minima,部分揭示了SGD的隐式正则化机制(implicit regularization)。在SGD方面,我们继续从乘性噪声的角度分析了究竟gradient descent noise这种一般形式的优化动力学(SGD是这种一般形式的特例)的泛化性质究竟和什么相关,目前得出的一个结论是基本只和噪声的covariance结构相关,和噪声的概率分布类型不是很相关(这个噪声可以是SGD噪声类型,也可以是高斯也可以其他类型),我们在特殊情况下以及大量实验验证了这个结果,已经被ICML 2020[3] 接收。这个研究的一个重要启示是对large-batch training的泛化性能不稳定的可能改进方向:我们可以采用large batch下对噪声进行设计,使其恢复small batch training的噪声结构,从而recover小批量训练的泛化性能。这也是我们做理论分析的一个重要动机:启发更好的算法设计。

另外就是最近这半年做的一些关于从理论上理解深度学习训练技巧,比如batch normalization以及knowledge distillation这些“黑科技”。关于batch normalization,我们揭示了带bn和weight decay的网络训练动力学的内在机制[4],即在SGD或者SGD momentum下,随着迭代进行,权重会在一个固定的圆周上运动,只有角度变化的更新,角度变化只决定于三个超参数:学习率,L2 范数系数以及动量系数。如下图所示

带BN和WD的训练随着时间进行会在圆周上运动

这个发现对理解很多带bn和wd的网络的训练出现的现象有很多帮助,比如是如何避免了梯度消失和爆炸的;如何有逃离sharp minima的现象;为什么decay learning rate,目标函数会出现骤降又实现平衡。基于这样的分析,第一次很好的揭示这些现象,同时对large-batch training的方法设计也有很好的启示。

关于knowledge distillation,我们分析了hard label的作用,以及为什么使用soft label能有更好的作用等。有新的进展会继续在这里和大家分享和讨论。

2 深度学习在对抗环境下的稳健性、安全性及可解释性

另一方面就是深度学习在对抗环境下的稳健性、安全性及可解释性的问题。现在这个领域已经成为一个深度学习重要的一个研究领域,涉及到如何攻击、防御、验证以及理论分析。我们从最优控制理论出发设计了对抗训练的加速算法, You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle (NeurIPS 2019)[5]。后续我们依然设计了从另外角度如何加速对抗训练,后续再和大家讨论。

以及分析了对抗训练之后的网络在预测分类时更强调侧重物体的高阶语义信息,如形状,我们称这种现象为 shape bias,而普通训练的网络更偏重局部信息,如 texture,也就是对抗训练的网络做预测更加和人类认知物体类别的方式相近,一定程度上和可解释性有很大关系。具体可见去年我们的 ICML 2019 工作 Interpreting Adversarially Trained Convolutional Neural Networks[6]。基于这些理解,我们设计了一种新型的学习robust representation的方法:Informative Dropout for Robust Representation Learning: A Shape-bias Perspective (ICML 2020)。

另外,对于一些基于预处理或者生成式模型的方法进行对抗样本的防御方法,我们设计了一种全新高效的攻击方法,基本全部在白盒设置下,这些已有的防御方法基本也是很难真正稳健,On Breaking Deep Generative Model-based Defenses and Beyond (ICML 2020)。

从安全角度的考虑,一些如何从全局的角度验证模型的稳健性也是努力的方向。

就写到这里,说一句,欢迎数学和 coding 基础好的,有志于进行这些方面或者结构化时空数据方面的同学联系我,比较全面的工作介绍可以看我的主页[7]

最后,大家关注一下这周末6月21日开始智源大会[8],大家能想到的大咖基本都来了,不容错过。

参考资料

[1] 知乎问题的回答: https://www.zhihu.com/question/385326992/answer/1164005349 [2] ICML 2019 年关于分析 SGD 的梯度噪声的协方差矩阵结构和目标函数的局部的曲率矩阵配合: http://proceedings.mlr.press/v97/zhu19e [3] ICML 2020: https://arxiv.org/abs/1906.07405 [4] 带bn和weight decay的网络训练动力学的内在机制: https://arxiv.org/abs/2006.08419 [5] You Only Propagate Once: Accelerating Adversarial Training Using Maximal Principle (NeurIPS 2019): https://arxiv.org/abs/1905.00877 [6] Interpreting Adversarially Trained Convolutional Neural Networks: http://proceedings.mlr.press/v97/zhang19s [7] 我的主页: https://sites.google.com/view/zhanxingzhu/ [8] 智源大会: https://2020.baai.ac.cn/

0 人点赞