作者 | 青暮
今天,FAIR发布了两项重要更新,分别是PyTorch 1.8以及10亿参数自监督模型SEER。
根据官方推特,此次更新重点包括:编译器更新、代码优化、科学计算的前端API、管道和模型并行性的大规模训练以及移动端教程。
相关链接:https://pytorch.org/blog/pytorch-1.8-released/
标记数据是稀缺资源,如今很多AI研究人员都在探索可以直接从所提供的任何信息中学习的系统,这些信息包括文本、图像或其他任何类型的数据。
这种学习范式被称为自监督学习,正如Facebook AI首席科学家Yann LeCun所言,这是构建具有背景知识或“常识”的AI,并用于解决远远超出当前AI所能承担任务的最有前途的方法之一。
如今,我们已经看到了自监督在自然语言处理领域取得的重大进步。其中,自监督的超大规模模型通过大量文本上的预训练,在问答、机器翻译、自然语言推理等方面取得了突破。
Facebook AI现在则将自监督学习范式转移到了计算机视觉领域。研究人员开发了SEER(SElf-supERvised)模型,它具有10亿参数,可以从任意随机图像组中学习,而无需标注数据。
论文地址:https://arxiv.org/pdf/2103.01988.pdf?fbclid=IwAR3cTqfbqIYaaAuwVxZerX0LYVVejxg1qa4p8einaeImb5MNqO6RL2l-tbY
他们使用的训练数据是10亿张随机、未标记和未整理的Instagram图像,通过在这些数据上进行预训练,SEER的性能优于当前的SOTA自监督系统(SimCLRv2),在ImageNet上达到了84.2%的top-1准确率。
此外,SEER在下游任务(包括少样本、目标检测、目标分割和图像分类)上也有不错的表现。
仅使用ImageNet数据集中的10%的示例进行微调时,SEER在整个数据集上仍达到了77.9%的top-1准确率,这表明它是不错的少样本学习器。如果仅使用带标注的ImageNet示例的1%进行微调,SEER的top-1准确率则为60.5%。
目前,FAIR已经开源了用于开发SEER的VISSL库。
GitHub地址:https://github.com/facebookresearch/vissl
1 现实世界中的自监督计算机视觉
FAIR表示,他们开发SEER的思路与当前NLP领域的主流路线类似。目前,NLP模型经常使用数万亿个参数和万亿级文本数据集进行预训练,例如BERT、XLNet、GPT-3等。有了更多的输入和更大的模型,下游任务的性能将大大提高,他们预计在计算机视觉中也应如此。
但是,对视觉问题使用自监督不同于对语言进行自监督。对于文本而言,语义概念被分解为离散的单词。但是对于图像,算法必须确定哪个像素属于哪个概念。此外,同一概念在不同图像之间会发生很大变化,例如,以不同姿态站立的猫或从不同角度观察的猫。我们需要观察大量图像以掌握单个概念的变化。
成功地缩放模型以有效处理复杂的高维图像数据需要两个关键组件:1)一种可以从大量随机图像中学习而无需任何元数据或注释的算法,以及2)足够大的卷积网络,以从庞大而复杂的数据中捕获并学习每个视觉概念。FAIR表示,他们在SEER中终于使这种思路成为可能。
SEER将最新的架构家族RegNet与在线自监督训练相结合,以将预训练扩展到数十亿个随机图像和十亿个参数。
研究人员利用了一种名为SwAV的新算法,该算法是从FAIR的研究发展到自监督学习的。SwAV通过在线聚类将具有相似视觉概念的图像快速分组,并利用它们的相似性。借助SwAV,能够在自监督学习的基础上进行改进,并且训练时间减少了6倍。
在如此规模的模型训练中,还需要一种在运行时和内存方面都有效的模型架构,而又不影响准确率。幸运的是,FAIR最近在架构设计领域进行的一项创新诞生了名为RegNets的新模型家族,它可以完全满足这些需求。RegNet模型属于ConvNet,能够扩展到数十亿甚至可能是数万亿的参数,并且可以进行优化以适应不同的运行时和内存限制。最后,是VISSL库使SEER成为了可能。
2 自监督的未来
FAIR表示,自监督学习一直以来都是Facebook AI的关注重点,因为它使机器可以直接从世界上可用的大量信息中学习,而不仅仅是从专门为AI研究创建的训练数据中学习。这将有助于我们构建更普遍适用的AI,快速适应不断变化的环境,并扩展到更多用例。
自监督学习对计算机视觉的未来产生了难以置信的影响,由于消除了对人类注释和元数据的需求,计算机视觉社区可以使用更大和更多样化的数据集,从随机的公共图像中学习,并有可能缓解数据管理中的一些偏见。
自监督学习还可以帮助我们在图像或元数据有限的领域(例如医学成像)中训练专业化模型。无需准备标签,可以更快地创建和部署模型,从而对迅速变化的情况做出更快、更准确的响应。
参考链接:
https://ai.facebook.com/blog/seer-the-start-of-a-more-powerful-flexible-and-accessible-era-for-computer-vision/