半监督学习价值凸显!谷歌大脑83页PPT介绍最新进展

2020-03-19 16:46:25 浏览数 (1)

半监督、自监督学习已经成为机器学习领域的热点,过去的2019年可能是它们走向成熟开始应用的分界点。

昨天,谷歌大脑研究员Thang Luong 分享了一份PPT Learning from Unlabeles Data,介绍了谷歌最近一年来利用无标签数据的最新研究进展,展现了半监督学习将要带来的巨大价值。

半监督学习即只有少量数据有标签,大部分数据没有标签,利用这些有标签和无标签数据的机器学习问题。

以往,半监督学习仅在小规模数据集上体现价值(比如CIFAR-10),但谷歌最近的研究(NoisyStudent)显示已经在大规模数据集(ImageNet)带来了可喜的精度和鲁棒性的提升。

完整内容可在下文阅读,获取完整PPT的PDF版可在我爱计算机视觉公众号后台回复“非标签学习“,即可收到下载地址。

重要亮点:

  • 非监督数据增广(Unsupervised Data Augmentation,UDA)方法可显著改进模型效果;
  • UDA在语言和视觉问题上都有效;
  • 半监督学习不仅在小规模数据集上有效,在大规模数据集也显著改进了精度;
  • 最近半监督学习利用外部无标签数据将ImageNet Top 1错误率降低了2个百分点以上;
  • 半监督学习不仅提升精度还可显著改进模型鲁棒性。

值得一提的是,内中提到的半监督学习算法均已开源,欢迎大家继续研究。

PPT的最后还介绍了谷歌在对话机器人上的新进展,称它们的Meena系统在开放问题的人机对话中,获得了接近人类的表现!(86% vs 79%,大幅超越其他对话机器人)

想要进一步交流学习的朋友欢迎文末扫码加群。


0 人点赞