“跨次元”目标检测模型hold住各种画风，真人赛博恐龙梵高画作都能识别，复旦校友一作，在线Demo可玩

2022-03-04 11:41:34 浏览数 (4)

萧箫发自凹非寺量子位 | 公众号 QbitAI

目标检测种类多达20000 种的AI，你见过吗？

不仅准确“揪出”每个物体所在的位置，分类效果非常准确：

插画版赛博恐龙也没问题：

甚至还能检测杂志封面甚至漫画中的物体！

这也是把目标检测给玩出花来了，据作者表示模型在长尾问题等细节上的处理非常好，像狮子和狐狸这种少样本也能准确识别：

这项研究来自Meta AI和德克萨斯大学奥斯汀分校，一作是著名目标检测框架CenterNet的作者、复旦校友Xingyi Zhou。

一起来看看。

可识别“跨次元”物体

这篇论文提出了一种新的名为Detic的方法，用来解决目标检测无法用到图像级标签（给一整张图打标签，标注里面有什么物体）的问题。

此前的目标检测方法，通常是一个检测框里一个物体：

这种方法有一个问题，就是没办法利用整个图像级标签，只能用单个物体的图片进行训练。

也有一些研究想出了一种新方法，搞个弱监督学习，试图让AI自己学会将图像级的标签，去对应锚定框里面有什么物体，但实际上这种方法的效果也不太好。

Detic的方法是采用目标检测数据（a）和图像标签数据（b）对Detic进行混合训练。

其中，在用目标检测数据训练Detic时，同时对图像分类模块W和目标检测模块B进行训练，但只用标签数据对图像分类模块W进行训练。

训练的数据集采用的是ImageNet，事实证明模型在训练后无需微调，就能很好地适应到LVIS等数据集，相对之前的一些模型都达到了不错的效果：

论文表示，Detic能分类的图片类型也是多种多样，从真实照片到赛博恐龙插画这样的“跨次元”作品都能识别：

这立刻吸引了不少网友来玩。

在线Demo可玩

有网友用梵高的世界名画试了试。

放大一点来看，艺术加工后的椅子、人和桌子也能被识别：

还有用二次元的龙猫进行识别的，除了龙猫本身被错认成猫头鹰以外，其他的雨伞和靴子都认得不错：

我们也随便用一个钟表柜的照片试了试，在线Demo的检测时间稍微有点久，大约需要6分钟左右，但效果还不错：

细看的话还是能发现一些瑕疵，例如把部分手表误认成转速计、以及怀表和时钟，以及也有一两块手表没有被检测出来。

不过，即使在二次元和插画中，这个AI能识别的物体，至少也需要在真实世界出现过。

例如，超出20000个分类的物体，如喷火龙和皮卡丘，就不在AI的监测范围内了，全部被认成了猴子（狗头）：

将这些二次元角色也加入AI训练数据集中，不知能否取得同样的检测效果。

作者介绍

△这张照片是“女朋友拍的”

论文一作Xingyi Zhou，目前在德克萨斯大学奥斯汀分校读博，本科就读于复旦大学计算机系，之前也是CenterNet论文的第一作者，项目在GitHub上目前已经收获6.1k Star。

Rohit Girdhar、Armand Joulin和Ishan Misra，Meta AI的研究科学家，主要研究方向是机器学习和计算机视觉，此前Armand Joulin曾经在李飞飞的实验室进行博士后工作。

Philipp Krähenbühl，德克萨斯大学奥斯汀分校助理教授，Xingyi Zhou的导师，研究方向是计算机视觉、机器学习和计算机图形学。

感兴趣的小伙伴，赶紧试试你想玩的漫画、或是杂志插画吧~

Demo地址： https://huggingface.co/spaces/akhaliq/Detic

论文地址： https://arxiv.org/abs/2201.02605

参考链接： [1]https://www.cs.utexas.edu/~zhouxy/ [2]https://twitter.com/ak92501/status/1480704961101148162

— 完 —

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里

https 网络安全图像识别 html

0 人点赞

上一篇：分享雷军22年前编写的代码

最新文章

更多»

在 C# 中获取操作系统相关信息 AI 检索器(AI Retriever)：RAG的重要组成部分，超强的商业优势基于知识库、工作流的智能体实践前端性能优化玩转腾讯混元 | 腾讯混元大模型AIGC系列产品技术有奖征文活动 Docker/DockerHub 国内镜像源/加速列表（长期维护 0926更新） Safari浏览器统一字体之自定义CSS样式表蓝牙耳机丢了，我花几分钟写了一个小程序，找到了！ #HarmonyOS NEXT#写了一个好用的语音播报demo 【Docker项目实战】使用Docker部署myspeed网络测速工具

热门手册

更多»

Svn

Ruby

Python

Php

Nodejs

Mysql

Linux

Jquery

Javascript

Java

Html

Git

推荐教程

更多»

设计模式、高可用性、高弹性、运维、监控与自动化



前后端分离的思考与实践



Susy 2 入门教程



让web app更快的HTML5最佳实践



Stack Overflow 揭秘程式开发者15 个不为人知的秘密



MySQL 5.7版本新特性连载



Redis 基础教程



架构之重构的12条军规



learnyounode 简体中文版



代码之谜

网站相关

关于字节宝

用户协议

网站地图

文章存档

常用链接

教程大全

文档大全

技术文章

字节宝手机版

官方APP

字节宝

Python字节宝

Java字节宝

字节宝工具箱

联系我们

帮助中心

商务合作QQ：3111859717

下载App

关注公众号

Copyright©2023 字节宝 |

违法和不良信息举报电话：|举报邮箱：3111859717@qq.com