半监督、自监督学习已经成为机器学习领域的热点,过去的2019年可能是它们走向成熟开始应用的分界点。
昨天,谷歌大脑研究员Thang Luong 分享了一份PPT Learning from Unlabeles Data,介绍了谷歌最近一年来利用无标签数据的最新研究进展,展现了半监督学习将要带来的巨大价值。
半监督学习即只有少量数据有标签,大部分数据没有标签,利用这些有标签和无标签数据的机器学习问题。
以往,半监督学习仅在小规模数据集上体现价值(比如CIFAR-10),但谷歌最近的研究(NoisyStudent)显示已经在大规模数据集(ImageNet)带来了可喜的精度和鲁棒性的提升。
完整内容可在下文阅读,获取完整PPT的PDF版可在我爱计算机视觉公众号后台回复“非标签学习“,即可收到下载地址。
重要亮点:
- 非监督数据增广(Unsupervised Data Augmentation,UDA)方法可显著改进模型效果;
- UDA在语言和视觉问题上都有效;
- 半监督学习不仅在小规模数据集上有效,在大规模数据集也显著改进了精度;
- 最近半监督学习利用外部无标签数据将ImageNet Top 1错误率降低了2个百分点以上;
- 半监督学习不仅提升精度还可显著改进模型鲁棒性。
值得一提的是,内中提到的半监督学习算法均已开源,欢迎大家继续研究。
PPT的最后还介绍了谷歌在对话机器人上的新进展,称它们的Meena系统在开放问题的人机对话中,获得了接近人类的表现!(86% vs 79%,大幅超越其他对话机器人)
想要进一步交流学习的朋友欢迎文末扫码加群。