允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI
鹅厂福利,又是开源。
最迟本月月底,腾讯AI Lab将开源“Tencent ML-Images”项目。
不仅要开源多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101。
业内最大规模
值得注意的是,这次开源的ML-Images包含了1800万图像和1.1万多种常见物体类别,在业内已公开的多标签图像数据集中,规模最大,一般科研机构及中小企业的使用场景,应该够了。
此前,业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。
所以一旦腾讯ML-Images开源,毫无疑问将成为业内规模最大。
不过腾讯方面认为,不光是数量规模上够诚意,在项目细节上,也都颇为用心:
大规模的多标签图像数据集的构建方法,包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中,团队充分利用了类别语义关系来帮助对图像的精准标注。
基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法,可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。
基于ML-Images训练得到的ResNet-101模型,具有优异的视觉表示能力和泛化性能。通过迁移学习,该模型在ImageNet验证集上取得了80.73%的top-1分类精度,超过谷歌同类模型(迁移学习模式)的精度,且值得注意的是,ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。
(注:微软ResNet-101模型为非迁移学习模式下训练得到,即1.2M预训练图像为原始数据集ImageNet的图像。)
ResNet-101模型
而同时提供的深度残差网络ResNet-101,是腾讯AI Lab基于ML-Images训练得到的。
腾讯方面介绍,该模型具有优异的视觉表示能力和泛化性能,在当前业内同类模型中精度最高,将为包括图像、视频等在内的视觉任务提供强大支撑,并助力图像分类、物体检测、物体跟踪、语义分割等技术水平的提升。
“Tencent ML-Images”项目的深度学习模型,目前已在腾讯多项业务中发挥重要作用,如“天天快报”的图像质量评价与推荐功能。
比如,天天快报新闻封面图像的质量得到明显提高。
此外,腾讯AI Lab团队还将基于Tencent ML-Images的ResNet-101模型迁移到很多其他视觉任务,包括图像物体检测,图像语义分割,视频物体分割,视频物体跟踪等。
这些视觉迁移任务进一步验证了该模型的强大视觉表示能力和优异的泛化性能。“Tencent ML-Images”项目未来还将在更多视觉相关的产品中发挥重要作用。
当然,最后顺路一提,鹅厂近年来在开源方面真是越干越勇。
自2016年首次在GitHub上发布开源项目(https://github.com/Tencent)以来,腾讯目前已有57个开源项目在列,领域覆盖了人工智能、移动开发、小程序……
嗯,好事情,再接再厉~