简读分享 | 汪逢生 编辑 | 王宇哲
论文题目
Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
论文摘要
领域泛化(DG)旨在学习分布转移下的可泛化模型,以避免冗余的过度拟合海量训练数据。之前关于复杂损失设计和梯度约束的工作尚未在大规模基准上取得实验上的成功。在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。它在5个大型DG数据集(如DomainNet)中的表现优于最先进的同类模型2%以上,计算成本相同甚至更低。作者进一步从分布式表示的角度(如视觉属性)揭示了SF-MoE的内部机制。
论文链接
https://arxiv.org/pdf/2206.04046.pdf