本文深度解读小米 AI 实验室 AutoML 团队(作者:初祥祥、周天宝、张勃、李吉祥)在可微分神经网络搜索(DARTS)方向的最新成果 Fair DARTS,该工作已被ECCV 2020 接收。
该论文从公平性角度思考DARTS现存的问题并提出了有效的解决方案,另外本文设计了一种辅助损失函数,解决了离散化偏差的难题。
01.
创新点和贡献
1. 揭示可微分搜索中 DARTS 出现跳接操作(Skip Connections, SC)大量聚集的原因,即 DARTS 方法存在 skip 操作具有明显的不公平竞争优势,以及 softmax 操作潜在的排外竞争方式(两个结点之间只选择一个操作)。因此消除二者之一可以解决这个问题,本文方法采取了打破竞争(公平)的方法,即用 sigmoid 替代 softmax 来允许选择多个操作。
2. DARTS 是离散问题进行连续松散的解决方法,最后根据连续的结构权重编码来决定选择更具优势的 op,通常连续值和 0 和 1 之间有很大的差距,从而导致选择过程容易出现偏差。本文提出在公平条件下使用 0-1 损失将结构权重推向 0-1 两端,从而减小连续编码转成 one-hot 时存在的偏差。
3. 本文从公平性框架内重新解读现有解决 SC 聚集问题的方法,并指出现有方法的合理性。
02.
研究动机
1. DARTS 搜索结果容易出现大量的 SC,这种模型的性能通常不佳。关于为什么会出现 SC 聚集,目前还不清楚根本原因。本文通过不同的随机数种子重复 4 次实验,把每个节点中 softmax(α) 最高的两个操作选出来进行统计,证实 SC 急剧增多普遍存在(Fig2)。
2. 在 ImageNet 上进行 DARTS 搜索实验,SC(砖红色)聚集更加明显(Fig.1)。
3. 根据实验现象分析 SC 聚集导致性能崩塌的原因: 竞争环境,存在不公平优势,二者同时作用导致 SC 聚集,进而带来性能崩塌。
1)SC 类似 ResNet 的 residual 模块,对训练是有益(Fig3),所以它的 α 权重提升快,对模型准确率没有得到相应程度的提升。
2)softmax 提供了一个潜在的排他性竞争,即在 softmax 的机制下,他强我弱,当 SC 初现苗头时,会加剧这种趋势。
4. 分析连续编码离散化时的差异:
连续值和离散值时存在较大差距(即连续 softmax(α) 权重最终需要转为 one-hot 编码来确定最终 op)。实验发现搜索阶段得出的 softmax(α) 值都是很接近的(4次重复试验发现 softmax(α) 值总在 0.1 到 0.3 之间,离期望的 1 很远),导致最终转化为 one-hot 编码时经常需要做出模糊的决策(例如两个不同操作的 softmax(α) 值是 0.176 和 0.174,很难判断哪个更优),所以连续编码离散化存在一定的差异。如 Fig4 中,softmax (α) 值都十分接近。
03.
方法
1. 提出使用 sigmoid 替代 softmax 处理结构权重,在这种情况下,多个 op 之间不会相互抑制,从而打破的 SC 可以发挥作用的竞争环境。具体地,将下式
变为
2. 提出添加辅助的 0-1 损失来缩小连续编码离散化的差距:在公平条件下,我们得以将不同操作的权重参数推向 0 或 1,扩大相对差异,即要么靠近 0 要么靠近 1
04.
实验
1. 模型在 CIFAR-10 数据集上对比,在使用了更低的乘加数和params后,精度可达 97.46%:
2. 模型在 ImageNet 数据集上的对比:
3. 模型结构
4. 消融实验
1)文中认为 SC 有明显的不公平优势,那去掉 SC,在竞争环境的搜索过程会公平一些吗?该文发现去掉 SC 后没有出现某个 op 集聚的问题(Fig 7)。
2)去掉辅助 0-1损失后,结构权重分布很宽(0-0.6),加上后能让结构权重分布趋向两极(0 或 1),从而很好地解决连续编码离散化的差异问题(Fig 8)
05.
思考
从文中认为的 SC 集聚的原因出发,可以发现,现有对于这个问题的有效改进的方法,都可以得到合理的解释。
1. PDARTS 在 SC 操作后添加 dropout,类似于抑制 SC 的优势,可以减弱其带来的影响。
2. RobustDARTS 中所有的操作都添加 dropout 同样能降低不公平的优势,但和 PDARTS一样, dropout rate 比较难于选择。
3. DARTS 中通过早停机制来限定 SC 的数量,在为干预大量 SC 出现,限制了不公平优势,但限制多少合适是一个问题。
4. 直接限定 SC 的数量是很强的人为先验,这样的模型通常都是比较优秀的模型。随机采样(Random M=2)满足该限制条件的模型进行完整训练,平均精度都高于 97% ,而且无需DARTS 搜索 (Table 3)
5. 根据前述分析可知,对 SC 输出加随机噪声也能干扰 SC 的不公平竞争优势,Table 3 中添加余弦递减的高斯噪声后,其搜索模型的平均精度较高 97.12%。
6. 至于是去掉不公平优势还是改变排他性竞争环境,FairDARTS 选择了后者(即更换 softmax 为 sigmoid,从而变竞争为合作),这样做更加简单且有效,同时还为消除连续编码离散化差异提供了铺垫(使用辅助0-1损失的前提条件是非排他环境)。
论文: 《Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search》
地址:https://arxiv.org/abs/1911.12126
开源地址:https://github.com/xiaomi-automl/FairDARTS