方法前沿: 一种有效的低成本高效神经网络架构搜索方法(AutoML方向)
通过路径级别的网络变换(path-level transformation)、树形的架构搜索空间和树形的RL元控制器,可以在同样性能的情况下将AutoML的硬件算力节省240倍(48000 GPU-hours v.s. 200 GPU-hours)。在CIFAR-10和ImageNet(移动设置)上获得了更好的结果。
来源
上海交大APEX数据与知识管理实验室和MIT韩松老师在今年ICML 2018上发表的新研究“Path-Level Network Transformation for Efficient Architecture Search”文章
论文摘要
我们介绍一种新的功能保护转换方法用于有效的神经网络架构搜索。这种网络转换允许重复使用之前训练好的网络和已有的成功架构来改进样本效果。我们旨在处理现有网络转换运算只能执行“层级别”的架构修改的限制,如添加过滤器(修剪)或插入(移除)一个层,而不能改变连接路径的拓扑结构。我们提出路径级别的转换运算使得元控制器能够对给定网络的路径拓扑进行修改,同时保持权重的优点可以保留。因此,可以实现复杂路径拓扑结构的高效设计,如残差模型。我们进一步提出了双向树结构强化学习元控制器来探索一个简单却高度可解释的树形结构空间,这个空间可以看作多分支架构的一般化。我们在一个图像数据集上利用有限的计算资源(约200 GPU-hours)进行了试验,我们观察到了改进的参数效率和更好的测试结果(97.7%的测试精度,在CIFAR-10上,拥有14.3M的参数;74.6%的top-1精度,在ImageNet上,移动端设置),证明了我们设计架构的有效性好可转换性。
理论前沿:模型可解释性问题的讨论
本文旨在讨论监督学习的可解释性问题,完善关于可解释性的表述。分为三个方面:
- 第一是透明度,其表现形式是“可模拟性”,即人类可以手动模拟机器学习模型;
- 第二是“可分解性”,即模型每个部分都有直观的解释;
- 第三是算法,算法应该有独一无二的解。
来源
加州大学圣迭戈分校(UCSD)博士、卡内基梅隆大学(CMU)计算机科学助理教授Zachary C. Lipton在ACM Queue上发表了题为《The Mythos of Model Interpretability》的文章。
论文摘要
监督学习具有卓越的预测能力。但是你可以信任你的模型吗?他会按照标书工作吗?他还具有其他能力吗?模型不应该只是好用,还应该可解释,目前可解释这项工作显得难以完成。学术文献提供了各种各样的可解释性方法,出发点各不相同。尽管模糊不清,许多作者都声明他们的模型具有内在的可解释性,而不做进一步的探讨。问题是,这些技术中的共同属性并不明确。
本文旨在重新定义可解释性的论述。首先回顾了以前论文中对可解释性的研究,发现了方法的多样性和偶尔的不一致性。然后,探索了模型属性和技术理念以讨论可解释性,对人类透明与事后解释之间的概念进行对比。最终,对可解释性不同概念之间的可用性和优势进行了讨论。本文质疑了一个被反复提及的观念,即线性模型是可解释的,而深度神经网络不可解释。