ECCV 2020 | 小米提出 Fair DARTS ：公平的可微分神经网络搜索

本文深度解读小米 AI 实验室 AutoML 团队（作者：初祥祥、周天宝、张勃、李吉祥）在可微分神经网络搜索（DARTS）方向的最新成果 Fair DARTS，该工作已被ECCV 2020 接收。

该论文从公平性角度思考DARTS现存的问题并提出了有效的解决方案，另外本文设计了一种辅助损失函数，解决了离散化偏差的难题。

01.

创新点和贡献

1. 揭示可微分搜索中 DARTS 出现跳接操作（Skip Connections, SC）大量聚集的原因，即 DARTS 方法存在 skip 操作具有明显的不公平竞争优势，以及 softmax 操作潜在的排外竞争方式（两个结点之间只选择一个操作）。因此消除二者之一可以解决这个问题，本文方法采取了打破竞争（公平）的方法，即用 sigmoid 替代 softmax 来允许选择多个操作。

2. DARTS 是离散问题进行连续松散的解决方法，最后根据连续的结构权重编码来决定选择更具优势的 op，通常连续值和 0 和 1 之间有很大的差距，从而导致选择过程容易出现偏差。本文提出在公平条件下使用 0-1 损失将结构权重推向 0-1 两端，从而减小连续编码转成 one-hot 时存在的偏差。

3. 本文从公平性框架内重新解读现有解决 SC 聚集问题的方法，并指出现有方法的合理性。

02.

研究动机

1. DARTS 搜索结果容易出现大量的 SC，这种模型的性能通常不佳。关于为什么会出现 SC 聚集，目前还不清楚根本原因。本文通过不同的随机数种子重复 4 次实验，把每个节点中 softmax(α) 最高的两个操作选出来进行统计，证实 SC 急剧增多普遍存在（Fig2）。

2. 在 ImageNet 上进行 DARTS 搜索实验，SC（砖红色）聚集更加明显（Fig.1）。

3. 根据实验现象分析 SC 聚集导致性能崩塌的原因：竞争环境，存在不公平优势，二者同时作用导致 SC 聚集，进而带来性能崩塌。

1）SC 类似 ResNet 的 residual 模块，对训练是有益（Fig3），所以它的 α 权重提升快，对模型准确率没有得到相应程度的提升。

2）softmax 提供了一个潜在的排他性竞争，即在 softmax 的机制下，他强我弱，当 SC 初现苗头时，会加剧这种趋势。

4. 分析连续编码离散化时的差异：

连续值和离散值时存在较大差距（即连续 softmax(α) 权重最终需要转为 one-hot 编码来确定最终 op）。实验发现搜索阶段得出的 softmax(α) 值都是很接近的（4次重复试验发现 softmax(α) 值总在 0.1 到 0.3 之间，离期望的 1 很远），导致最终转化为 one-hot 编码时经常需要做出模糊的决策（例如两个不同操作的 softmax(α) 值是 0.176 和 0.174，很难判断哪个更优），所以连续编码离散化存在一定的差异。如 Fig4 中，softmax (α) 值都十分接近。