作者 | 贾伟
编辑 | 丛末
一位学者在学术领域开山立派,最显著的一个标志就是某个学术概念能够与该学者划等号,例如当提起相对论必然会联想到爱因斯坦。
同样的道理,当提起「数字视网膜」这一概念,人们首先能想到的当属中国工程院高文院士。
所谓数字视网膜,即类比于人类视网膜,对传统摄像头乃至视觉计算架构进行演进与革新,从而能够更加智能地支持城市大脑,服务智能安防、城市精细管理等智能应用。
更为具体的来说,传统摄像头只是把拍摄到的视频数据压缩后上传到云端进行存储,再做分析识别处理;而数字视网膜则要求在摄像头端对拍摄视频进行高质量视频编码和视觉特征提取编码,对压缩编码过后的视频流进行本地存储的同时按需上传到云端,而所有的紧凑特征流同步实时同步到云端,从而既能够保证高效的存储,又能够便捷地支撑大数据查询分析,与此同时支持在端-边-云之间进行面向智能视频编码和特征分析的深度学习模型自适应迁移、压缩、更新与转换。简而言之,数字视网膜就是这样一种包含视频编码流、特征编码流和模型更新流的可伸缩端边云协同视觉计算架构。
传统视觉感知系统
数字视网膜技术系统框架
这一概念从正式提出至今,才不过两年,然而从最初构想,前期实践,到理论基础构建却花了近五年的时间。即使到现在,数据视网膜的技术框架也仍然在不断完善当中,但其影响却将是颠覆性的。正如高文院士在2018年的一篇文章[1]中提到:
我国已明确提出“到2020年,基本实现全域覆盖、全网共享、全时可用、全程可控的公共安全视频监控建设联网应用”,但是如果没有重大技术突破,数千万摄像头根本无法实现“全网共享”的实时数据汇聚,更不可能实现“全时可用”的联网分析识别,“数据大”变不成“大数据”,巨大潜在价值无法发掘。数字视网膜是应对上述挑战的一种可行的颠覆性技术发展方向。
1
雏形酝酿
高文院士对于「数字视网膜」的理解,是伴随着对城市中视频监控体系所存在问题的深刻认识而不断深化的。
据可考查资料,高文院士最早对城市中摄像头所存在缺陷以及可能的改进进行思考始于2013年初(或者稍早)。在2013年新年伊始,高文院士曾接受人民网采访[2],他提到现代摄像头密布,但还需要后端人力去盯,一旦遇到重大案件,去调用录像资料,却往往起不到太大作用。如果能够在设计视频编码时,让系统把数据中有用的信息抽取、挖掘并分析出来,不但能节省后期的人力投入,而且能起到应急作用。
可以认为,这个时候,他已经有了模糊的概念,但对于具体如何去做,却仍在酝酿当中。
在2013年10月,高文院士在中国信息化周报上发表了题为《智慧城市中的视频编码、分析与评测》的文章[3]。在这篇文章中,他首次系统提出了他对“智慧城市”中视频监控所存在问题的深入思考,他指出:
1、目前的监控系统在设计时是为了视频存储和以人为核心的视频跟踪,而非以计算机为中心的自动分析,因此靠这样一套系统来实现智慧城市的视频系统,去做自动分析,是根本无法完成的。
2、智慧城市中的视频技术面临三大问题,分别是存储成本高(数据量太大)、检索困难、对象再标识难。而这三个问题归结到本质则是两个问题,一个是编码问题,而另一个是视频分析识别问题。因此如何对监控视频进行高效视频编码,以及如何对其进行分析和检索,是必须思考的两个本质问题。
3、在学术界存在一个奇怪现象,即做视频编码的学者对视频分析不感兴趣;而反过来,做视频分析的人对编码也不感兴趣。原因在于前者处理的是像素和图像块,属于图像处理领域,而后者处理的是图像特征,属于模式识别领域。就像两条路上跑的车很难交汇。
幸运的是,高文院士正好跨界这两个圈子,无论是在视频编码领域,还是在计算机视觉(特别是人脸识别)领域,他都有着重要的影响力。其学生陈熙霖、山世光两位研究员继承了他在人脸识别领域的衣钵,如今已成为国际计算机视觉领域的领军人物;而其学生黄铁军和马思伟两位教授则继承了他在编码领域的衣钵,在国际视频编码领域也有着重要的影响力。[4]
高文院士对当代城市监控系统存在问题的本质分析,尽管只是雏形,但却奠定了他在随后解决这一问题的研究思路和方向。特别是在2014年的“第二届智慧城市与智能系统院士论坛”上,他提出“我们希望把编码和分析所做的技术融合在一起,集中在一个编码的框架下。”[5]
然而,尽管有了大致的方向,但由于以深度学习为代表的新一代人工智能刚刚兴起,许多人对深度学习都还不太熟悉,当时的算法和算力还不足以支持这种设想的技术。当然,从已有的资料中也可以看出,高文院士当时对这一问题的分析和解决方案设想中,对如何将深度学习与视频编码进行融合似乎也并没有很深入的想法,仍然是以“前深度学习”的模式在思考。
2
仿生:数字视网膜
时间一晃,来到了2016年。随着人工智能的发展,计算机视觉变得红红火火。大量以计算机视觉为技术基础的初创公司相继成立,传统安防企业也逐步转型。城市安防成为了一个资本角逐的大市场,高文院士之前提到城市视频监控的三大问题(存储成本高、检索困难、对象再标识难)也显得越加尖锐。
在这些年当中,高文院士逐步将原有的框架丰满起来,然而若想把这一理念落到实处,还需要具体的场景,毕竟这是一个以工程为主体的研究。正如他在随后的一篇文章[1]中提到:
“需要建立一个大规模测试平台来评估和展示数字视网膜架构的技术优势。这个平台至少应该包括上万路的监控摄像头,地理上覆盖一个中等以上城市,从而可以在真实场景中评估与数字视网膜相关的算法和技术。”
巧合的是,2016年以王坚为主导的阿里云在杭州开始试点建设城市大脑。[6]这正符合高文院士研究的需求,于是与王坚等人一拍即合。为了更好的合作,2017年7月,高文院士以前的学生团队成立了一家名为「博雅鸿图」(「博雅」取自北大「博雅塔」;而「鸿图」为立意高远之意)的公司,高文院士担任董事长,依托北京大学数字视频编解码技术国家工程实验室在数字音视频编解码(AVS)国家标准和视觉特征编码(CDVS)国际标准等方面的技术、标准、人才和产业化优势,致力于视觉智能芯片及系统解决方案的研发及产业化。[7]
在这期间,高文院士开始跳出编码和计算机视觉的领域,从更广的范围里思考其框架。一个表现即是,在2017年6月举办的图灵大会上,高文院士做了主题为《Evolution of the Artificial Visual System》的报告。[8]
高文院士在2017年图灵大会上做报告(来源:腾讯视频截图)
在这个报告中,他首次提出动物视觉的演化,以及人类应该借鉴其中的模式,这本质上便是「仿生」。但在报告中,他仅仅做了类比,虽然没有提出「数据视网膜」的概念,但基本框架已经非常完备。
数字视网膜概念的首次提出,是2017年10月份在深圳举办的安博会上。[9]
他在这次报告中进一步指出,传统视觉感知系统中监控摄像头为1-1模式:单摄像机单流、单用途。这种模式是长期自然形成的,效率不高:(1)压缩-解压缩和分析过程造成长延迟;(2)对象检测、模式识别和场景理解的准确性较低;(3)低利用率,目前的监控系统是为存储数据并再由人工离线检查而设计,大部分数据在其生存期内始终没有用。这些是我们当代智慧城市所不能忍受的,我们需要升级这些“眼睛”。
在这次报告中,他也首次指出数字视网膜包含的三个核心技术:
1、基于背景模型的场景视频编码。现有监控摄像头采用的视频编码技术标准对监控视频编码效率不高,因为这些标准主要是针对广播电视视频制定的。在监控场景下,大多数摄像头是固定的,背景相对不变,因而如能够利用背景预测,消除相应的冗余信息,那么编码效率将大大提高。
2、视频特征的紧凑表达。视觉表征是图像视频分析处理的基础,如果在摄像头端利用人工设计特征与深度学习特征自适应融合技术提取帧内帧间视觉紧凑表示,然后传送到云端,就能大大提高搜索效率。他们曾实验表明平均每帧仅需100bit,可达到与未经压缩特征相当甚至更高的检索性能。
3、视频编码与特征编码的联合优化。上述两种数据信息并不是相互独立的,而是相互关联,可互为指导的,因此数字视网膜在同时输出压缩视频流和紧凑特征流时,可以根据码流的大小,设计联合优化函数来计算如何分配各自的码率,从而在保持分析检索性能的情况下,进一步达到压缩需求,如下图所示。
从图中可以看出,在保持视频编码性能基本不变的情况下,特征编码可大幅度压缩。
高文院士也提到数字视网膜的三个特点,分别为高性能、高效率和可伸缩。
在这次报告中,还值得一提有两点。首先,他指出数字视网膜是可软件定义的,即特征学习模型和摄像机参数可以实时地从云中心更新(后面又对这一概念做了升级);其次,针对当前大多数仍然是传统摄像头(而非数字视网膜摄像头)的实际情况,他提出了基于智能边缘节点的解决方案,也即将负责特征提取的“视网膜”功能部署在边缘汇聚服务器,而不是更换已经部署的摄像头。
尽管“数字视网膜”整个框架都已经搭建完整,且已经在杭州、山东文登、重庆等地做了实际试点,但直到2018年初,相关工作才首次正式见于刊物。
2018年初,高文院士,北京大学田永鸿教授,以及阿里巴巴首席技术官王坚博士(2019年被评选为中国工程院院士)在《中国科学》期刊上联名发表了一篇名为《数字视网膜:智慧城市系统演进的关键环节》。[1]
这篇文章首次完整、清晰且严谨地定义了「数字视网膜」的概念:
如何借鉴“人类视网膜同时具有影像编码与特征编码功能”这一生物特性来研究和设计一种更高效的摄像头。我们称之为数字视网膜摄像头(retina-like camera),简称为数字视网膜(digitalretina)。
数字视网膜的核心在于“单摄像机双数据流”,其中压缩视频流是为了存储和离线观看,而紧凑特征流则是为了大数据分析与搜索。
文章也对不久前安博会上报告内容做了更为严谨的描述,同时也首次提出了数字视网膜所必须满足的五个条件:(a)使用全网统一的时间;(b)提供精确地理位置;(c)提供视频数据的高效编码功能;(d)提供视频数据的紧凑特征表达;(e)支持视频编码与特征表达的联合优化。
考虑数字视网膜研究未来可能的演化路线,高文等人在这篇文章中提出三点,分别为:(1)标准化,该研究落地到实际生活中,必须在不同厂商及城市之间形成统一的标准;(2)软硬件开源,对于这样的基础工程来讲,如果无法做到软硬件开源,相关的技术和产品就无法做到有效的开发和应用;(3)大规模测试床,这也是我们前面所提到的,不同于理论研究,数字视网膜本身更偏向应用工程,因此必须有真实场景的测试才能够推进发展。
针对以上三点,高文院士等人也有相应的动作,例如积极推动的AVS2、MPEG CDVS及其扩展MPEG CDVA等。[9]
此外,2017年7月,由高文院士、潘云鹤院士、黄铁军教授等带头发起成立的「新一代人工智能产业技术创新战略联盟」,也在创立之初就积极推动成立人工智能开源开放平台建设。[10]
在寻求建立大规模测试平台来评估和展示数字视网膜架构的技术优势方面,除与阿里云合作在杭州试点外,2018年3月,深圳市也成立了“鹏城实验室”,高文院士担任实验室主任,由此开启了深圳试点。[11]
因此,《数字视网膜:智慧城市系统演进的关键环节》这篇文章的发表具有标志性意义,它也意味着高文院士对于「数字视网膜」的定义正式成形,研究格局基本确立。
3
从「双流」到「多流」
按照上述所示的框架,高文院士所带领的团队(包括其所担任董事长的博雅鸿图)一直在完善从前端到后端,从软件到硬件的探索和设计。
从本质上来说,智慧城市的数字视网膜便是在摄像头中嵌入芯片,从而能够将获取的视觉数据经过高效编码和紧凑特征提取后,传送给城市大脑(后端云),以便更为高效、灵活地检索和分析。这里涉及到两种数据流,分别为视频编码流和特征编码流。
但这种架构忽视了一个问题,即数字视网膜的芯片在做特征提取时,依赖于良好的深度学习模型。为了保障特征提取的准确性,城市大脑通常需要利用搜集到的数据进行学习,训练相应的模型,再将学到的模型发送给前端设备。因此,模型的生成、利用和通信对数字视网膜至关重要,特别是视频数据在位置、时间和环境等方面差异很大的情况下。因此,在视频编码流和特征编码流之外,模型编码流同样是非常重要的一部分。
因此,随着对数字视网膜实践和认识的深入,其结构由「双流」变为了「多流」:视频编码流、特征编码流和模型更新流。
针对这一概念,高文院士最早是在2019年11月底在山东济南召开的“2019世界人工智能融合发展大会”上提出的。[12]
但事实上,他们对此的研究早已开始。
在2019年7月,由北大段凌宇教授课题组在计算机多媒体领域国际学术会议IEEE ICME上发表了《智慧城市数字视网膜的模型生成、利用和传输范式》(Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm)一文[13],这篇文章首次提出视频流、特征流与模型流的协作计算模式,以克服端-边-云环境下的模型复用与传输瓶颈。值得一提的是,这篇文章还获得了这届会议的最佳论文奖。[14]
段凌宇教授课题组在数字视网膜研究与实践中发现,数字视网膜计算框架下的边缘节点缓存了大量表征模型与无标签数据。为此,课题组提出了一种多模型复用机制,有效利用了边缘节点缓存的模型和数据,生成更具域适应性和判别力的目标模型。针对多模型复用过程中的模型训练稳定性,论文给出了理论证明与分析,并在实验中取得了相比传统方法更优的性能增益。在视网膜计算框架下,模型的频繁传输与部署会带来较大的通信开销。为了提升模型更新效率,进一步提出了模型间高效通信的新问题,并提出了一种新颖的差分模型压缩方法,相比传统的单模型压缩方法,可有效降低模型传输码率开销。该论文围绕视频流、特征流、模型流,提出了城市视觉系统中的协同计算新问题,对于未来数字视网膜理论研究与实践具有指导意义。[14]
2019年10月由博雅鸿图公司研制的第一款数字视网膜芯片—“鸿图 TMGV9531ESHI”流片成功。在同月的第二届雁栖航天论坛上,高文院士对该芯片进行了详细介绍。
在“2019世界人工智能融合发展大会”上,高文院士提到,[12] “第一款数字视网膜芯片已经在路上,很快就会发布,这个芯片很小,就像一块钱硬币一样,但却把我刚才说的三个本质特征、八个功能全都包含在里面。将来,这种芯片可能会直接进入各种智能交通的系统里,会支撑数字视网膜的应用。”
2019年11月22日在杭州举行了第一款数字视网膜芯片发布会和数字视网膜生态伙伴启动仪式,正式命名为“鸿芯图腾GV9531”对外亮相。
“鸿芯图腾GV9531”是首款支持数字视网膜技术体系的智能芯片,也是首颗AVS2视频编码芯片,它对数字视网膜技术进行了完整的诠释,支持全局统一的时空ID、多层次视网膜表示和模型更新及软件定义,在边缘端实现数字视网膜技术的高能效处理,不仅能减少进入云端的无用数据量,还能大大降低视频数据处理的成本,是数字视网膜边云系统视觉计算框架的核心算力支撑平台,是视觉边缘计算、多流智能处理、实现脑眼合一的视觉计算系统不可缺少的关键环节。
另外,在新的一年里面,数字视网膜的研究会有什么新的进展?更为重要的是,在这一领域,它能够给研究者带来哪些值得研究的新课题?它能够给芯片厂商、安防厂商带来什么新的商机?
这是我们所期待的!
本篇文章的写作,离不开中国图象图形学学会以及北京大学多位老师的支持,在此感谢。
AI科技评论了解到,由中国图象图形学学会主办,新疆大学承办的第二十届全国图象图形学学术会议(NCIG 2020)将于2020年6月28-20日在新疆乌鲁木齐举办。高文院士将作为特邀讲者[16],再次为我们带来数字视网膜的最新研究报告,该会议将汇聚国内图像图形及相关领域领军人才,聚焦领域热点问题,多角度全方位洞见未来发展趋势,包含3个特邀报告,2个讲习班,4个论坛,5个竞赛,1个优秀博士论坛,多个展览,是国内图像图形领域专家学者合作交流的平台,值得期待!
NCIG 2020 官方网站:http://ncig2020.csig.org.cn
高文院士简介
高文,北京大学博雅讲席教授。1982年于哈科大获得学士学位,1985年于哈工大获得硕士学位,1988年和1991分别获得哈工大计算机应用博士学位和东京大学电子工程博士学位。1991至1996年就职于哈尔滨工业大学,1996至2006就职于中国科学院计算技术研究所,2006年2月至今就职于北京大学。IEEE Fellow、ACM Fellow、中国工程院院士。他的研究领域为多媒体和计算机视觉,包括视频编码、视频分析、多媒体检索、人脸识别、多模态接口和虚拟现实。他最常被引用的工作是基于模型的视频编码与基于特征的对象表达。他先后出版著作七本,合作发表300余篇期刊论文、700余篇国际会议论文。先后多次获得国家科技进步奖、国家技术发明奖、国家自然科学奖等学术奖励。
参考资料:
[1] 数字视网膜:智慧城市系统演进的关键环节,中国科学:信息科学2018年第48卷第8期:1076–1082
[2] 高文院士:高效视频编码技术前景广阔,人民网(2013年1月10日),http://scitech.people.com.cn/n/2013/0110/c1007-20156410.html
[3] 智慧城市中的视频编码、分析与评测,中国信息化周报(2013年10月21日)第 005 版
[4] 高文院士个人主页,http://www.jdl.ac.cn/htm-gaowen/
[5] 与智能视频监控有关的技术挑战,中国信息化周报(2014年9月22日)第 005 版
[6] 复盘阿里城市大脑这3年(2019年1月25日),https://www.leiphone.com/news/201901/Pq1EAaIrVXM4mDMv.html
[7] 北大高文院士发表重要讲话:人工智能数字视网膜芯片到底能做什么(2018年7月7日),http://www.pinlue.com/article/2018/08/0913/386742019905.html
[8] 图灵会议高文院士主题报告(2017年6月8日),https://v.qq.com/x/page/e0511e3veje.html?fr=v.hao123.com
[9] 高文院士50张PPT,带你看懂城市大脑的瓶颈与重大突破点(2017年12月15日),https://www.leiphone.com/news/201711/esDVM34RTfN0mN67.html
[10] 专访黄铁军:以落实国家「新一代人工智能发展规划」为己任的战略联盟,成立8个月做了哪些事?(2018年3月26日),https://www.leiphone.com/news/201803/UJuG5jWfsHxXe26M.html
[11] 鹏城实验室启动大会召开,
http://www.pcl.ac.cn/index.php/home/index/views/id/164.html
[12] 中国工程院院士高文:数字视网膜消除智能交通痛点 | 世界人工智能融合发展大会(2019年11月20日),https://www.leiphone.com/news/201911/q5Y20D2wqlFqXSHe.html
[13] Towards Digital Retina in Smart Cities: AModel Generation, Utilization and Communication Paradigm(2019年7月31日),https://arxiv.org/abs/1907.13368
[14] 计算机科学技术系段凌宇教授团队荣获IEEE ICME 2019最佳论文奖(2019年8月2日),https://eecs.pku.edu.cn/info/1023/9885.htm
[15] 数据不出本地,还能享受大数据训练模型,联邦学习提供一种应用广阔的学习新范式(2019年9月11日),https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html
[16] NCIG 2020第二十届全国图象图形学学术会议,http://ncig2020.csig.org.cn
[17] AI Oriented Large-Scale Video Management forSmart City: Technologies, Standards and Beyond(2017年12月5日),https://arxiv.org/pdf/1712.01432.pdf
[18] 高文院士:用类脑颠覆摄像头,数字视网膜是下一站(2018年9月12日),http://tech.163.com/18/0912/18/DRH97U4S00098IEO.html
[19] 解析高文院士提出的“数字视网膜”体系(2019年5月8日),https://www.iyiou.com/p/99569.html