周正宁认为,视频是未来最重要的沟通方式,视频处理技术一定要跟上爆发需求,这包括视频内容的理解,服务端处理,实时编码及存储服务。从清华紫光、UTStarcom到Aupera,周正宁一直没有离开研发工作。大数据与AI技术将与多媒体应用结合将产生更多价值。LiveVideoStack邮件采访了Aupera联合创始人兼CTO周正宁,他结合自己的经历总结了一名普通技术人到CTO的成长经历,并对硬件与多媒体生态的未来给出了自己的观点。
策划 / LiveVideoStack
LiveVideoStack:周正宁你好,能否简要介绍下自己,包括目前的主要工作及关注领域?
周正宁:我是傲睿智存科技(Aupera)的联合创始人兼CTO, 傲睿智存(Aupera)专注于视频数据应用的新一代系统解决方案的创业公司,我主要负责公司的系统架构,技术路线规划等。我此前曾负责为包括华为海思在内的一些视频芯片公司提供相关算法及核心协议栈,还为 PPTV和乐视等互联网内容运营商提供完整音视频技术解决方案;我早年曾于UTStarcom深圳研发中心负责ATCA高性能平台及IPTV 系统的相关底层软硬件架构设计及开发,以及在清华紫光从事FPGA加密芯片及加密引擎硬件产品的研发。我非常关注新兴的音视频编解码技术,音视频编解码与AI融合架构,大规模异构计算以及新型存储技术及架构。
LiveVideoStack:这么多年从技术工程师到CTO,哪些关键的选择让您成为了现在的自己?
周正宁:2007年我决定自己创业的选择就已经把自己从技术工程师向更加全面的技术架构和把握技术趋势的角色推进了一大步。当时创业的公司因为没有更全面的团队,业务做不起来规模,现在参与了傲睿(Aupera)的创立,最大的不同就是优秀的团队,我们各司其职,让我有了更多的时间去考虑公司的技术路线,我认为这两步是我人生中最关键的选择而成为了现在的自己。
LiveVideoStack:如何保持一颗好奇心?并在日新月异的技术大潮中找到属于自己的发展路径?
周正宁:我个人对新兴的技术一直都充满好奇心,保持一颗好奇心并不难,对于我来说可能是如何压制我过于旺盛的好奇心比较难:)。我以前在和朋友聊天或从其他途径了解到一些新兴技术后,我常常会去查一下相关的文章,得益于当今发达的资讯网络,你可以轻易找到非常多的相关论文和讨论, 如果没有其他事情打扰,我常常可以不吃不喝连续看十几个小时。但后来发现如果一开始就对一项技术作过于深入的研究不是太有效率,有些新技术常常在很多场合并不适用或根本就是为了发论文粉饰出来的数据。
后来我的做法是对新技术刚开始只需要做到了解其核心思想以及适用场合,同时花更多的时间扩大技术视野的范围,这样对整个技术圈的发展能有更为全面的了解。对于与我们正在做的事情的有紧密相关技术,我会邀请内部或相关的专家一起深入讨论,如果有市场潜力并且在我们能力范围以内,特别是结合我们的架构优势能转化为巨大市场优势的技术,我们会进行更为深入的研究甚至安排到后续的研发当中。借用CNN里的术语,简单说就是一要扩大 “感受野” ,二要“剪枝”。
我自从工作以来,一直从事技术研发相关的工作,研发创新最大的挑战就是要不断的否定常规,甚至否定自己,跳出既定的框框。可以说关注新兴的技术和相关的阅读已经变成了我日常的习惯和某种意义上休闲的方式,非常享受从中挖掘出一些趋势,结合自己的工作和兴趣做些畅想。
我非常幸运的能赶上视频大数据,人工智能以及存储架构变革的浪潮,这里面的市场和技术机会都非常的多, 自从离开UTStarcom后,我的创业路途一直围绕音视频的发展,无论是视频专用芯片的算法,到视频处理的底层架构,再到现在视频数据的应用与AI的结合,我认为自己有一个比较明确的目标,就是视频是未来最重要的沟通方式,视频处理技术一定要跟上爆发需求。同时我也非常幸运的能和一帮志同道合的专家和高手一起研究新技术以及推动一些新技术的发展,一起逐步实现我们对未来的憧憬。
目前我对大部分新技术只是因好奇心而关注,我以及公司都会尽量把精力聚焦在我们目前正在做的工作和技术上。我认为一定要有基于自己专长选择的专注点,不断的围绕这个专注点去反复推敲再慢慢延伸,否则,将会很容易不断的去追随热点,而在不断的竞争和打击中被迫放弃,恶性循环。相信不久的将来我们打造的新一代创新产品能在这个技术日新月异的技术大潮中立稳脚跟,真正成为这个视频大数据时代各方诸侯手中的利器。
LiveVideoStack:能否描述一下您典型的一天的日程?几点入睡,几点起床?
周正宁:我喜欢夜晚安静的工作和思考,同时因为两地团队的缘故,经常凌晨3、4点入睡,早上一般9-10点起床,我可以说是经常享受太平洋东西两岸凌晨4点的风景为数不多的人之一吧:)。
LiveVideoStack:从清华紫光到Aupera傲睿智存,回顾(FPGA)硬件开发这些年,您的体会和观察到的行业现象是什么?
周正宁:FPGA行业发展非常快,性能越来越高,应用范围越来越广。1997年大三时第一次用到可编程器件做项目时,那时的PLD只有几千门,用来做简单译码和时序逻辑,到后来我工作中做加密算法的FPGA有几万门到几十万门。现在我们用到的FPGA除了基本的逻辑阵列功能以外还能够集成CPU,SRAM以及各种IP硬核,芯片规模最大的到上百亿门,因此FPGA本身能做的事情越来越多,现在一颗FPGA就能成为一个完整的服务节点,独立完成复杂的工作,不再是只能作为加速引擎附属在主机上。
就视频行业来说,真正最高端的编码器还是FPGA方案, FPGA的可编程高度灵活的并行计算,能够非常好的兼顾编码质量与性能。当然近些年来兴起的GPU,CPU 硬编码等方案使编解码市场竞争更为激烈,但从特定市场来看,特别对于新兴算法,实时高质量编码,AI融合编解码上,FPGA的优势还是非常明显。个人认为CPU,GPU,FPGA这三种方案在视频应用市场上各有优势,他们之间的功能和性能上也有互相靠拢的趋势。
LiveVideoStack:您如何看专用集成电路RISC、FPGA的前景?在多媒体生态中,专用集成电路在当下为未来有哪些重度应用场景?
周正宁:当一个应用或算法成熟时,针对特定市场的ASIC有不可比拟的性价比和能耗比,但由于ASIC一定是针对特定的市场,为了极大化性价比,会对一部分功能进行裁减优化,因此开发或应用ASIC需要搞清楚应用场景和范围。
ASIC从研发到市场的周期很长,而由于技术本身的不断变化,当ASIC面市时,某些新的算法或功能很难加入,所以个人并不看好ASIC在一些正在快速迭代的技术上的应用。反观FPGA,用可编程逻辑实现成熟算法并无优势,不过最新的FPGA能够集成各种硬IP (如HEVC等) ,使这方面可以达到与ASIC同样性价比和能耗比,加之其具有的可编程硬件算法优势,在融合快速迭代技术的实现上具有明显优势。在竞争白热化的今天,云端服务提供商如何能快速响应新功能从而做到差异化服务显得尤为重要,而这种情况下,FPGA可能是性价比和能耗比最优方案。
对于ASIC 重度应用场景,我认为首先是在终端应用,特别是一些功耗受限的设备,专用集成电路是刚性需求。包括比如内容的实时编解码及VR/AR场景实时拼接,人脸应用,语音识别/合成以及一些泛AI应用。在云端场景,采用成熟的H.264/HEVC,ASIC加速非常适合于海量视频实时编解码场合的应用,比如说WebRTC的MCU。WebRTC是典型的低延时实时编解码场景,许多软件编码具有优势的VQ优化和RC算法派不上用场,这方面ASIC的性价比和能耗比具有绝对的优势。
LiveVideoStack:就WebRTC而言,大规模互动的场景下,如何实现性能稳定的MCU就成为系统的关键。专用集成电路/FPGA是如何在这里场景下发挥威力的?
周正宁:在WebRTC的实践中,SFU和MCU模式各有优势和缺点。通常由于软件转码混流的成本非常高,加之大多数云架构采用虚拟化技术,软件转码混流任务的延时很难保证,因此大多数WebRTC服务端采用SFU模式,让服务器只做中转工作,而把繁重的任务交给客户端来完成。
随着网络环境的不断进化,以及各种新的音视频编码应用到WebRTC中,采用SFU模式的客户端的负担将会越来越重,功能也会越来越复杂以适应各种兼容性问题。特别对于手机等功耗受限的设备硬件配置参差不齐,虽然像SVC这样的技术从原理上说非常合理,但真正落地到实践中如何保证用户体验还是非常具有挑战性。当然也有不少公司提供终端“盒子”的方式来搭建基于SFU模式的会议系统,这种方式不但保证编解码性能和兼容性,还能够加入各种实用的附加功能,从用户体验上说确实会好于普通终端网页方式,但这种方式推广上需要庞大的硬件零售的销售渠道和售后服务支撑,实施难度要远远大于基于标准WebRTC的方案,如果考虑到将来AV1或其他新的音视频编码的应用,已售出的“盒子”怎样升级和替换也将是一个值得思考的问题。
MCU解决方案在网络速率的适配和视频编解码兼容性上有天生的优势:局端转码,对客户端的编解码性能和兼容性要求大大降低;局端混流,大大降低会议系统的带宽成本,大幅提高弱网情况下客户端的用户体验,也降低客户端的软件开发难度;由于部署在IDC机房,与会方之间的AV同步更容易保证, 特别赛事直播领域中的主播PK等高同步要求应用,MCU的方式具有很大优势;
而针对传统MCU解决方案的缺点,采用硬件加速的MCU解决方案从根本上解决传统MCU解决方案中的性价比和延迟抖动问题。同时针对于支持新的音视频编码和AI附加功能,硬件FPGA方案能够及时调整内部硬件算法适应不同的工作任务,运维人员只需要一次性云端部署就能完成整个系统的升级,而不需要庞大的客户端插件/软件/硬件盒子升级计划。
对于有存储要求的,硬件解决方案支持以离线模式线速转码存储,比SFU直存更节省空间。
LiveVideoStack:UTStarcom经历了小灵通时代的 “昙花一现”。作为一名技术人,您如何理解技术在企业生命周期中的作用?
周正宁:我自己对UTStarcom极有感情,经历了UTStarcom从小到大,盛极而衰的过程,公司里有一大批极具才华的工程师和专家,但很遗憾最终没能成长为行业领头羊。我认为技术在企业生命周期中的作用在于生根发芽,只有技术的领先和扎实,才能够保证企业的根基雄厚,并能长出健康的树芽,这是技术型企业最关键但也是最基础的一个元素,企业生命周期中还有更多更重要的因素,包括团队,技术落地,时点把握等等,都是保证企业发展壮大成为参天大树的更为重要的因素。
LiveVideoStack:可以预见的是,随着5G的到来,网络带宽进一步提升,多媒体应用更具想象空间。在多媒体相关领域(或具体的应用场景中),您认为哪些技术具备快速发展和应用的潜力?
周正宁:5G的到来意味着移动网络延迟大幅降低,移动带宽大幅增加,以及单位带宽成本的大幅降低。可以预见到:
- 互联网上视频内容进一步增加,对越来越多的视频特别是高清视频内容如何快速高效挖掘的技术将非常有前景。
- 网络延迟的大幅降低将凸显其他系统延迟的影响,特别是编解码的延迟和抖动对用户体验的影响占比会大幅增加, 采用硬件技术来保证其用户体验将会越来越普遍。
- 随时随地视频通话更为普遍,随之而来的兼容性问题会更加突出(更为复杂的网络速率匹配,更多分辨率适配,更复杂的流控算法,更多的客户端版本), 考虑到用户体验,结合部署应用成本和运营成本的权衡,硬件加速的MCU模式将会越来越流行。
- 人们对网上直播/实时会议/教育的视频质量期望大幅提高,更高清晰度的视频意味着更大的存储空间,如何离线压制保存这部分内容的技术值得关注。