策划:包研、Alex 编辑:Alex
张昊
年终访谈
002
编者按:本周是2021年的最后一周,在这个迎接新年的日子里,LiveVideoStack有幸邀请到了中南大学计算机学院张昊教授参加我们的年终访谈。过去的十余年时间里,张教授一直致力于视频编码技术的研究,曾发表期刊会议论文共50余篇,拥有专利60余项(授权或申请),主要研究领域包括视频编解码、基于深度学习的图像视频处理、视频分析等。在此次与LiveVideoStack的对话中,张教授分享了他对音视频技术发展与未来创新、元宇宙、音视频人才培养和技术学习等话题的看法和感悟。
中南大学计算机学院教授 张昊
LiveVideoStack: 张教授,欢迎您参加访谈,请您向我们的读者简单介绍一下目前您所关注的技术。
张昊:很荣幸有机会参加LiveVideoStack的访谈。目前我主要关注基于深度学习的图像视频编码和前后处理技术。另外,还在关注面向VR/AR的相关编码和处理技术。我还在参与一些与视频分析相关的应用研究。
LiveVideoStack: 回顾近几年的音视频技术发展,有哪些创新技术令您印象深刻?
张昊:最早接触的音视频技术是H.264视频编码。我觉得H.264标准的制定对视频应用有重要的影响。另外,可伸缩视频编码结合相关传输技术,极大提升了互联网上的视频会议质量。
LiveVideoStack: 您目前关注的音视频技术应用场景有哪些?能否具体说说?
张昊:我目前比较关注的应用场景有:基于AI的视频处理、基于AI的视频编码器参数优化、基于人脸关键点AI编码的视频会议、三维视频会议、云端渲染和编码(或者混合渲染)、虚拟人技术等。感觉这些方向在未来可能会有一些真正广泛应用的技术或产品出来。
LiveVideoStack: 张教授,您在加入中南大学之前,曾在美国的Vidyo公司工作过。据您观察,中外的视频技术发展有哪些不同?
张昊:我只在这一家公司工作过,所以对这个话题还没有太多发言权。不过我回国后跟国内企业进行校企科研合作比较多,个人感觉国内的视频人才越来越多,不少国外知名企业的技术骨干都回国创业或者加入国内企业。我对视频编码这个方向稍微了解多一点,感觉这方面国内的技术研发实力是很强的,在国际上也是很有竞争力的。
LiveVideoStack: 元宇宙是今年大热的话题,Facebook前段时间也更名“Meta”,变身元宇宙公司。对于元宇宙,您是如何理解的?
张昊:网上很多人都针对元宇宙谈过自己的看法。我个人的理解就是元宇宙是结合VR/AR等技术,对网络时代社交的一次全面升级。未来的元宇宙是什么形式,是否包含多种应用,哪些应用可以普及,现在都难以预测。我现在更关心那些可以相对较快落地的技术,比如VR/AR编码技术,虚拟人技术等。
LiveVideoStack: 对于音视频技术的未来发展,还可能会有哪些令人期待的创新?在AI与视频编码技术结合上,未来有可能会出现哪些突破?
张昊:我非常期待基于AI的图像视频编码技术的创新。目前基于传统视频编码框架提升压缩率已经越来越困难,我们期待一个新的框架。目前AI视频编码还达不到最新传统编码标准(比如VVC)的水平,但是这个方向最近不断有新的研究成果发布出来,相信性能提升会加快。要是未来AI编码成为业界广泛采用的方案,那编码器的优化可能会需要与以往不同的技术。当然,在完全的AI编码成为现实之前,可能会有一个中间状态,比如结合传统架构和AI模块的编码技术和标准。这要求编码工程师既要懂传统编码,也要了解AI的相关知识。
目前端对端的AI 视频编码,虽然成果不断涌现,但是短期内可能还很难大幅度超过VVC的性能。但基于传统编码框架,加入一些编码效率更高的AI模块(比如滤波、预测),是有可能在短期内提升压缩率的。因此我看好基于传统编码框架 AI这条思路的技术进展。
LiveVideoStack: 我们前段时间做了一个程序员35岁的采访,大家都提到音视频领域人才稀少的情况。作为一名大学教授,您能否从您的角度谈谈音视频技术领域人才供给?
张昊:这几年随着4G普及而引发直播、短视频大热,导致企业对音视频领域人才的需求增加。然而从事音视频领域研究的老师较少,每年毕业的硕士博士也不多,因此目前音视频人才是供不应求的。如何增加音视频人才供给,我个人觉得可以从以下三个方面着手:一是可以从国外引进人才(目前其实已经有不少海归加入国内企业或高校);二是跟高校音视频领域的实验室保持联系,为这些实验室的研究生提供实习机会;三是在企业内部培养人才,即对专业背景相关(比如图像处理背景)的工程师进行培训,从而缓解企业缺乏音视频人才的问题。
LiveVideoStack: 对于未来想从事音视频技术工作的同学,您有哪些建议? 对于想要入门音视频技术的同学,您有哪些学习资料可以推荐?
张昊:未来想从事音视频技术工作的同学,首先需要选择细分方向。音频和视频方向区别是比较大的,视频技术又可分成视频传输、视频编码等方向。这些方向需要掌握的背景知识不同,我只能针对自己比较熟悉的视频编码方向推荐一些学习方法:首先可以找一本264/265/266的入门书籍,然后结合标准软件JM/HM/VTM学习整个编码流程和其中关键模块。光看书和读代码显然是不够的,可以选择自己感兴趣的模块,找2篇论文,自己在JM/HM/VTM软件中实现文中算法,以加深对细节的理解。网上有大量博客对各模块(比如模式选择、运动估计、码控)进行了详细介绍,可以作为学习中的参考资料。钻研得比较深的同学也可以研究一下标准文档。学习音视频技术是一个循序渐进的过程,只能先了解整体架构,然后把1-2个模块搞熟,再慢慢学习其他部分。祝同学们学习顺利!