华为机器视觉张爱军：三个「万物」定义智能世界｜第四届中国人工智能安防峰会

软件定义时代的三个要素。

作者 | 李溪

编辑 | 余快

2021年12月11日，由雷峰网 & AI 掘金志主办的第四届中国人工智能安防峰会，在深圳正式召开。

本届峰会以「数字城市的时代突围」为主题，会上代表城市AIoT的14家标杆企业，为现场和线上观众，分享迎接数字城市的经营理念与技术应用方法论。

在上午场的演讲环节上，华为机器视觉副总裁张爱军为峰会带来了精彩演讲。

张爱军提到，从2016年，华为就把整个企业的愿景从丰富人们的沟通与生活变成把数字世界带入每个人，每个家庭，每个组织，构建万物互联的智能世界。

华为从技术角度进行了“智能世界”的定义：一是万物感知，二是万物互联，三是万物智能。

张爱军指出，随着交互方式将发生巨大变化，催生新型移动物联网蓬勃发展，未来整个智能世界最核心的数据交互主体将不再是人与人的交互，而是物与物的交互。机器视觉将成为5G时代的“智能手机”，行业数字化感知入口。

对于当前产业发展历程，张爱军提出两个观点：

1、智能感知的进程进入第二波增长曲线，未来感知系统会拥有主动的感知能力。

2、纯粹的、被动的感知产业生态，可能会快速进入以企业生产业务流程为主导的感知体系，智能感知进入千行百业将变成非常重要的模式。

张爱军还分享了华为机器视觉的战略：加速视觉感知进入企业生产流程，助力“智慧管理和运营”，支撑战略落地上，华为有四个核心点。

一是关键技术。华为在计算机视觉赋能上的镜头、图像传感等都在进行关键技术研究。

二是标准规范。标准规范最核心的是通过更加客观数字化的模式来衡量一幅图片、一段视频是不是真正有效的为未来的人工智能和机器视觉来使用。

三是评价体系。手机行业的评测模式让整个产业界非常有序发展。新的机器视觉产业需要类似的评价体系，让智能时代的图像质量评价更为客观。

四是开放生态。提供一套生态架构，让开发者便捷开发、一站式交易，自由的沟通和交流。

以下是张爱军演讲全文，雷峰网AI掘金志作了不改变原意的整理与编辑：

机器视觉和未来智能世界/数字化转型的关系是什么？大家可能对此有各种各样的理解，我想谈谈华为近期的思考。

华为的愿景是“把数字世界带入每个人、每个家庭、每个组织，构建万物互联的智能世界”。

从技术角度，我们对智能世界进行了三个万物的定义：一是万物互联，二是万物智能，三是万物感知。

有人问信息社会和智能社会到底有什么区别？我们在叠加人工智能算法过程中，很多时候没有注意到，其实参与信息社会和智能社会的主体在发生巨大变化。

信息社会是人和机器的交互，通常是人找到更多数据，无论是PC互联网还是移动互联网时代，都是如此。

未来在智能世界里最核心的数据交互的主体变成物和物的交互。当交互方式发生巨大变化，催生新型移动物联网产业蓬勃发展。未来数据将基于不同的场景找到更多为人服务的模式。

所以，4G时代，智能手机是移动互联网的体验入口、应用载体、让人与人联接。

我们认为未来在5G时代、真正的人工智能时代，机器视觉将成为5G时代的“智能手机”，行业数字化入口，成为数据载体，也成为承载物和物之间交互的主体。

在此背景下，我们需要构建应对未来智能世界的感知平台。为匹配未来智能世界里面对不同场景、不同业务能力的变化，构建更加灵活、多样的全息感知平台体系，好望提出了“软件定义”架构，并明确了三个关键要素：

1. 专业的AI芯，为实现智能化与数字化提供强力的算力引擎。

2. 开放的操作系统，才能真正融入到智能世界的端云协同业务体系中。

3. 丰富的生态，构建智能世界我们需要与众多合作伙伴共同携手。

对于当前产业发展的历程，我们有两个观点：

1、智能感知进入了第二波增长曲线。

过去十年，随着智慧城市、平安城市的建设，安防摄像头已经被广泛普及，这些摄像机更多给我们提供了被动感知的能力，提供的是事后查看的能力。未来这些感知体系会拥有主动感知的能力。

2、从整个产业看，未来被动感知的产业生态可能会快速进入到以企业的生产业务流程为主导的感知体系，智能感知进入千行百业将变成非常重要的模式。

我们知道，一家公司不可能适配所有企业场景。人工智能最关键的数据的选择不应该是由做算法模型的科学家来实现，更多是由懂得场景和业务的工程师来实现的，但往往现实很残酷，懂得场景和业务的工程师在算法的快速开发上缺乏经验。

因此如何让懂行业know-how的人的想法快速变成算法非常关键。

人工智能时代新兴低代码模式，已经极大提升了开发者的效率，但是对业务专家来讲依然是很复杂的过程。

我们有一个朴素的想法，我们在这个过程中采用端云协同的模式，提供从训练到开发、部署的业务模型，真正实现业务闭环。

讲一个我们与企业合作的故事，这个企业做的算法精度大概在75%左右。他们找到华为，问能不能让工程师自己开发，让算法的精度提升到85%或者90%。

这是个很简单的问题，我们可以解决。我们基于华为的好望开发平台，同时也给他们提供了人工智能领域8个基础模型，这是任何做视觉的人工智能算法模型都需要用到的模型，比如目标的跟踪、目标的切割等等一系列的基础能力，有了这些基础能力，他们就可以通过数据有效训练来快速构建场景需要的能力。

我们希望未来机器视觉加速视觉感知进入生产环节，能让大型企业、店铺等小微企业都能享受AI的能力。

目前很多需求在发生根本性的变化，以前只需要被动的感知能力，今天需要为企业生产提效提供决策的依据，我们认为感知能力变化最大的本质就是从“给人看”到“给机器看”。在这个过程中，所有技术要素、技术体系都需要围绕给机器看来构建。

回顾产业发展历程，行业客户需求从安全防范上升到经营决策，华为从机器视觉四层需求理论出发，围绕“1 3 N”的产业框架，持续打造创新产品，以“平台生态”重新定义商业模式、生态模式和解决方案架构。

好望以软件定义摄像机、为核心构建了完整的业务闭环的端云协同的产品能力，基于此产品能力，华为构建了完全开放的生态。我们并不希望一家包揽所有事情，希望的是在AI的时代与能力型伙伴一起，把你们的行业know-how变成你们的产品能力，在你们所熟知的行业进行销售的模式。

这个产品体系如何支撑战略落地？

一、关键的技术。这和虞晶怡教授今天讲的未来谈感知一定会谈计算视觉一样。计算视觉是很庞大的故事，华为在计算视觉有多年研究。为什么华为的手机晚上照出来的照片比别人的好？这是计算视觉赋能。在一系列的镜头、Sensor、图像传感领域，我们都有关键技术的研究和积累，希望未来面向机器视觉、面向机器来构建机器能识别的技术要素。

二、标准规范。视频编解码技术发展了近30年，当我们评价视频好坏时还是用主观体验来作为最重要的评判标准。但我们面向机器视觉，如果用同样的模式评价图像标准是很困难的事情。

有一次我和中国图形图像学会王院士交流，他提到，如果未来不能通过客观的方式来评价视觉图像，对机器构建整个智能世界有非常重大的影响。

围绕给机器看的 “看、存、用”，华为机器视觉提出 SuperColor、SuperCoding、AI Turbo三大根技术，贯穿视频数据的全生命周期管理和使用。

同时，华为在联合学界和业界伙伴共同提出面向机器的Machine Vision Benchmark标准规范。标准规范的核心是通过更加客观、数字化的模式来衡量一幅图片、一段视频是否有效为人工智能和机器视觉所使用。围绕标准的评价体系，好望携手伙伴不断探索自动化的测评流程，构建标准化的实验室。

三、评价体系。围绕这套标准体系，华为在和业界一起探索自动化的评测流程，华为墨子光学图像实验室支持MVB自动化评测打分，可以自动化评测产品与标准要求的符合度，且能快速得出结果。

这套模式的启发来自手机行业，我们发现手机行业的评测模式让整个产业界非常有序发展。我们认为在新的机器视觉产业里需要这样的体系来帮助整个行业繁荣。

前面更多是从华为自身出发，往后我们要让合作伙伴一起共创数字的未来，其中最关键的是要提供一套生态的框架，这个生态框架有三个核心能力。

一是提供一站式好望开发平台，让所有开发者的想法和行业know-how变成算法；二是为伙伴提供一站式交易的平台，华为把你开发出来的算法带货到全球世界各地的项目，我们也希望伙伴在生态中形成网络，可以自行沟通和交流。三是形成端到端的产品体系。

在这个过程中我们构建了云上开发一键式部署、协同推理，同时能够在云上进行端侧远程升级和远程运维，是一套自动化的运维管理体系。

华为开源了深度学习框架MindSpore，它的能力在端侧，无论是性能的要求，对资源的要求，还是整体上的能力相比其他框架更优。我们把开发的大量优秀的基础模型贡献出来，在产品能力上构建端边云协同的能力。

华为机器视觉致力于用智能赋予机器“看”的能力，开启“机器看世界”新时代，推动智能社会快速到来，张爱军表示：“好望希望在各个方面与伙伴们持续深化合作，在标准、认证、算法开发等多个领域我们与伙伴携起手来，共同构建智能世界，一起共赢未来”。

编程算法手机行业神经网络深度学习人工智能

0 人点赞