2D和3D是机器视觉领域两个重要的概念,一个维度之差,带来的是从平面信息到空间信息的质的飞跃。
3D视觉诞生之初以人眼作为参照,目的是让机器能够更清晰地认知人类所处的三维世界。
这个赛道的企业无不以“3D视觉”自居,然而,在这场从2D到3D的技术接力赛中,也潜藏着一个不被外界所知的维度——2.5D。
“一大半宣称3D视觉的公司,其实都是2.5D,不是真3D,而且能做到2.5D已经很不容易。”机器视觉从业者马迪这句话,揭下了不少3D视觉公司身上的新衣。
所谓的3D,很可能是2.5D
在机器视觉中,3D和2D的区别主要三点:
第一,物体的识别和测量。
2D获取的信息相对简单,只能看到物体的平面信息。3D则是在2D的基础上,增添了深度信息。提供了一个超级“数据集”,能更准确地识别物体的形状和位置,弥补2D无法进行深度测量和分析的不足。
第二,处理对象。
2D图像由像素点组成,每个像素点都有一个颜色值,最终呈现出来的是一个规整、对齐的像素图;3D图像由许多点云组成,点云记录的是物体在空间中的位置和形状,点云是不对齐、无序的。
第三,算法上也有区别。
2D视觉常用的算法和技术包括边缘检测、特征提取、图像分割、物体识别等。3D视觉常用的则是深度估计、点云处理、三维重建、SLAM等。前者通过分析像素之间的关系和特征来实现,后者则通过分析和处理深度图或点云数据得到。
换句话说,2D视觉对平面信息可以直接获取,但3D视觉的深度信息,却需要通过计算得到。
以深度学习的理解能力为例,深度学习在2D上做图像识别分类能达到九十多分,但当其碰到点云时,表现就会降至七八十分。
3D成像在国内的发展历史并不是很长,2D成像处理已经很成熟,但3D的成像处理却很难。
“真正的3D,因为有多个视角,所以得用多个深度图表示,深度图的融合,只能通过点云处理,点云是不对齐和无序的,可以旋转和缩放,这个门槛卡住了很多的工程师。”马迪解释道。
但下游客户的确有大量3D需求,面对3D成像技术这道难关,2.5D顺势而生。
作为技术过渡阶段的产物,2.5D兼具2D和3D的部分特征,形成了对图像的独特处理方式。
相比2D,2.5D增加了深度信息,与3D相比,2.5D图像又并非通过点云,而是通过颜色传递高度信息。并且不同于3D的多视角,2.5D是单视角,信息比较残缺,很多算法最终都会回归到2D算法上。
“2.5D和3D的本质区别,可以从视角来解释,单视角很有可能是2.5D,必须得是多视角才是真3D,多视角是判断真假3D的一个充分不必要条件。”马迪指出从视角角度可以很容易区分3D、2.5D、2D的不同。
技术上的亟待突破投射到下游应用中表现为:机器视觉的相关工位,仍旧以2D为主,3D(2.5D)为辅。
“检测任务就属于大部分没有解决,还靠人工在搞,小部分解决那些,基本依靠2D,当2D无法胜任时,会用3D解决,并且很多所谓的3D也不是真3D,而是2.5D。”
不过,2.5D的存在也有其合理性,在部分非复杂应用场合中,客户又需要获取深度信息时,相比高成本的3D视觉,2.5D常常能以绝对的性价比取胜。
2.5D拉低了3D视觉门槛,真3D技术壁垒依然很高
从趋势看,人眼的世界是个三维世界,从替换人眼的角度,3D视觉一定是未来的趋势,好比以前手机用2D相机,现在都在往3D相机转,大量场景需求只是时间问题。
不过现阶段,需要真3D的下游应用场景还不够多。
以3D检测为例,“目前检测任务大部分还在依靠人工,小部分用机器视觉解决的,基本上用的都是2D。”
追根溯源,是3D视觉产品在客户端的接受度还不够高。
一方面,3D相机的成本太贵,导致设备整体价格较贵;另一方面,多视角混合的真3D,超出了大部分工程师的处理水平,视觉厂商要真正把3D做好很难。
因此,站在解决问题和性价比角度考虑,在2D视觉足够解决场景问题的情况下,客户并不愿意为成本更高的3D买单。
在追求优质性价比的工业市场上,那些需要获取深度信息的场景客户,从成本方面考虑,选择2.5D视觉,已经能够满足基本需求。
这使得3D视觉行业的进入门槛变低,而技术壁垒和行业难题犹存。
多位机器视觉投资人也曾对AI掘金志表达过这个观点。
目前,结构光、ToF和双目立体是三个主流的3D成像技术,其他成像技术都是在其基础上的变形,国内均已有成熟的开源算法。
“反正都是开源的,只要学过算法,即便没在机器视觉公司工作过,也很快能跑起来。”王浅介绍,他有不少朋友硕士毕业后到机器人或视觉公司工作,并且一开始就承担核心研发工作,“都是先在实验室用存量数据或者公用数据,跑起来后,再去工厂用他们的数据。”
晏小锋认为,除开半导体这类壁垒极高的领域,一旦出现新兴技术和市场,国内就开始内卷,但以3D成像技术为例,要做到低功耗、低延迟、高帧率、高分辨率,国内外仍然有不小差距。
前两年疫情催生下,机器人行业需求爆发,3D视觉作为机器人在复杂环境实现“无触式”的关键技术,受到资本热捧,尤以距离落地更近的中游设备商和方案商,最受追捧。
在此过程中,一项新的产业,攀附着3D视觉行业悄然生长:3D视觉创业培训。
传感器从业者贾科介绍,北京有一家小公司,专门做3D传感器的解决方案培训班。他们会先从传感器圈子找人参加各种行业论坛,一旦发现哪个老板想融资,就和对方建立合作,从研发培训课程,到企业一步步搭建,再到配套硬件,提供一条龙服务。
“这个公司有个公众号,每天讲一点秘密,底下评论的全是这个圈子的老板,大家都是一条流水线快速培训起来的,各种忽悠资本不挺香吗?”贾科说。
这类企业带着明确的To VC目的,“因为3D是一个很好的概念,所以玩命往上凑”,他们在低水平处重复建设,不仅毫无技术差异化可言,还拉低了3D视觉行业的整体对外形象。
至于业内发展较好的企业,也大都沿袭着主流的成像技术,用着成熟的开源算法,虽在国产替代浪潮中有所成绩,但极少有企业能拿出创新技术或方案,能解决传统视觉厂商解决不了的问题。
或许正因如此,在3D投融资热潮过去后,不少投资人选择“弃城而逃”。
当然,3D视觉创业者谷永道出投资人离场的部分原因:真正懂机器视觉的投资人,凤毛麟角。
“机器视觉属于硬科技赛道,对投资人有专业性方面的要求,即使不是互联网背景、金融背景,哪怕是半导体背景,也看不懂机器视觉赛道。”
事实上,从技术底层看,3D视觉领域的技术壁垒依然很高。
不同于投资人的观点,创业者、从业者普遍认为:3D视觉行业不是技术壁垒变低,反而是客户有很多痛点问题需要解决,但目前还没有真正被突破。
比如高速、高精度场景,国内极少有企业能做得了。
“国外一家传感器公司,专吃高速场景,售价比国产最低端相机贵30%-40%,并且不带服务,还能保证四成的毛利。”贾科进一步解释,这家公司之所以能做得好,是因为花真金白银给客户定制CMOS芯片。国内极少有企业做高速高动态场景,部分原因在于给钱也买不到国外的定制芯片。
这些技术实现过程中的曲折,非业内出身的人,很难有深刻的体会。
一位二十年从业经历的行业老兵表示,目前国内大多数视觉公司实现不了真3D,一方面出在技术积累上,一方面出在数据积累上。
国外机器视觉,从20世纪70年代起就已真正开始发展,而机器视觉在国内的发展,不过是近二十年的事。
除了3C、汽车、新能源、锂电、光伏等已经相对成熟的制造业,其他行业的工业客户,对于瑕疵样本的留存意识不足,导致数据获取成本非常昂贵。
当下,大家都在试图用AI解决制造业中的瑕疵检测难题,但依然很难达到客户“4个9”(即0.9999,特定时间10000个里一个瑕疵品)的要求。
在谷永看来,这是因为一个AI模型的质量,主要由数据的数量跟质量决定。但工业场景里,瑕疵品的数量非常少,出现概率在千分之一甚至万分之一,再加上客户没有留存意识导致的样本数据积累严重不足,也使得AI技术做工业瑕疵检测缺乏土壤。
因此,虽然部分企业宣称能在视觉检测样本库不够大的情况下,用AI生成一些相似的样本库,但实际上检测精度会有所下降。
“那些说能用几十张图训练出一个AI模型,并且检测效果也非常好的公司,都是给投资人讲故事。他们的AI模型实际是从几千甚至上万张图片训练出来的大模型中,‘瘦身’优化出来的小模型。”在谷永看来,从技术原理上讲,通过虚拟方式生成瑕疵样本并非不可能,而是现阶段的技术还达不到。
换句话说,现阶段机器视觉领域的AI,投喂什么就认识什么,并且投喂的数据都需要来自实际的瑕疵品,不具备推演的能力。
而一旦实现虚拟瑕疵,AI能像人脑一样归类和推演出成千上万种瑕疵,即使客户没有针对实际瑕疵品做留存,检测准确率也将大大提升。
一边是人才流失,一边是人才浪费
不同于2D视觉能够直接获取平面信息,3D视觉的深度信息,需要通过计算得到。
“直接获取最容易,加一步计算,就挡住了一半的人。相比2D,2.5D也要获取精确的深度信息,因此能做到2.5D已经很不容易。”马迪表示。
在3D视觉概念已经无孔不入的今天,真实应用场景中运行的却大多是2.5D相机,甚至2D相机。
这一反差背后的原因在于,将3D变成现实的人才,并非真正的3D人才。
行业驱动从本质上讲,是人才驱动。
但目前中国机器视觉行业普遍的现状是:高端人才不足;学校教育与市场需求脱轨;人才浪费。
首先,从整个3D视觉行业来看,视觉相关的毕业生中,大专生的供应量占比最大。
“目前机器视觉工程师中,专科毕业生占据绝大部分,因为视觉行业存在大量较为简单的视觉任务识别工作,因此即使是明星企业,也需要相当数量的专科生来完成这部分工作。”
与数量众多的专科生形成鲜明对比,进入视觉行业的高端人才太少了。
作为一项新兴技术,3D视觉以其想象力,在过去两年成为工业领域里的一条吸金赛道,少数明星企业吸引到了不少高端人才,但他们的生存状态,并不代表赛道的普遍情况。
谷永是3D视觉领域极具代表性的创业者,毕业于华中理工大学,然而当他回到母校做宣传时却发现,自己根本招不到人。
“所有的硕士跟博士一毕业后全部进入大厂,或者进入一些有名的AI公司,这些公司开得起钱。视觉公司大都是一些小的创业公司,稳定性不强。”
其次,全国各大高校每年为机器视觉领域培养的毕业生并不少,但只有很少的人在学校里学习到了真3D的相关知识,大部分学校培养出来的都是2.5D或者2D的视觉工程师。
魏源观察到,很多大专毕业的机器视觉工程师,往往都会2D算法,懂得深度图或者图像,但是他们通常不懂点云,也不会点云处理算法。
再者,机器视觉领域还存在一个极为矛盾的现象,即人才不足背景下的人才浪费问题。
“机器视觉领域的人才浪费当下还比较普遍”马迪认为,至少在去年,甚至今年上半年,都还有公司付着博士的薪水,却让博士干着一位专科生就能干的应用工程师的活。
机器视觉市场,成熟状态下的分工模式,将是研发与项目相互独立,博士生、研究生更多进行纯研发的研究,本科生、专科生更多接触项目和应用。
“按理说,应该要给他们做好分工,但以检测行业来说,一开始并不容易判断一个项目的检测难度,一般的处理方式是,先找一个中等水平的工程师进行实验判断,如果项目难度小,就将任务下发给技术能力更低的工程师来做,如果项目难度大,就向上找能力更强的人来做。”
在不少业内人看来,机器视觉领域的人才浪费,更是行业发展初期的一个必经的阶段。
一方面,现阶段的机器视觉还并非一个盈利赛道,企业养不起纯研发,只能让博士生、研究生们到一线接触项目,接触应用,既是为了赚钱,也能了解市场需求。
另一方面,行业初期需要做大量奠基工作,一般的工程师做不了,需要由高屋建瓴的人牵头执行。
马迪以行业融资规模前几名的梅卡曼德举例,“梅卡曼德就比较典型,拿着投资人的钱就可以请得起硕士、博士还有更贵的行业专家,现在梅卡曼德的相机已经迭代到第4代,相机已经稳定可靠了。”
开创奠基的工作一完成,硕士、博士们便自然回归研发工作,相机的使用则可以完全交由真正的集成商,集成商再启用大专毕业生、初级工程师,将3D相机具体落地到产线和产品中,解决许多之前解决不了的视觉任务。
结语
2.5D是技术跃迁过程中一个阶段性的产物,如果说以互补关系存在的2D和3D是技术天空的两颗恒星,那2.5D就是划过天边的一颗流星,只会在穿越大气层时摩擦出耀眼的火光,而后将随着3D视觉的成熟归于堙灭。
国内3D视觉行业更大的问题在于,无论线激光或者结构光,高端都较为空白,中端亟待充实,太多公司在低水平重复建设中耗费大量精力。
与此同时,行业发展也需要警惕一味追求高精度,因为站在客户角度,无论2D、2.5D、3D,能解决问题的,就是“火眼金睛”。
机器视觉优秀人才的匮乏,从业者能做的较为有限,更多需要政府、资本的支持。毕竟只有当行业聚集的优秀人才足够多时,行业才能够快速发展。
国内3D视觉尚处发展初期,整个供应链在逐步进步,下游终端产品的场景应用也在不断拓展,我们期待一个成熟商业闭环的到来,但也需要给予这个年轻赛道更多的时间。
文中马迪、王浅、贾科、谷永皆为化名。