高孟平:深度学习是视频技术与人眼视觉连结的重要桥梁

2021-09-01 16:49:26 浏览数 (1)

LiveVideoStack通过邮件专访了腾讯音视频实验室专家高孟平,他聊起了自己的成长与从业经历,并畅谈了带领AI、视频处理、编解码、质量等团队打造人眼视觉为标准的视频服务平台——丽影平台的前前后后。在4月19-20日举行的LiveVideoStackCon上海2019上,邀请了腾讯高级工程师李凯和王诗涛介绍腾讯音视频实验室在视频前后处理及Codec方面的探索。点击【阅读原文】了解大会最新信息。

文 / 高孟平

策划 / LiveVideoStack

如果你对多媒体技术和生态有话要说,输出观点与实践经验,欢迎联系 contribute@livevideostack.com。

LiveVideoStack:高孟平你好,向LiveVideoStack的读者介绍下自己的经历,以及目前的工作内容与感兴趣的领域。在众多的前沿科技领域中,为什么选择多媒体技术这一方向,有特别的魅力吗?或对你有特别的意义?

高孟平:LiveVideoStack的朋友们大家好,我是高孟平,2008年加州大学圣地牙哥分校电脑电机博士,研究领域主要在视频编解码的Scalable Video Coding (SVC), 其中 motion vector,residual coding以及scalable bitstream selector发表了十多篇IEEE期刊及会议论文。博士毕业后加入美国高通公司,负责H.264行动编解码芯片的系统设计。2012年加入美国苹果公司,负责FaceTime实时视讯通信以及iTunes高品质视频处理编解码系统,并研发了高效且质量无损的分布式编码架构。2018年初加入腾讯,担任音视频实验室专家,带领AI、视频处理、编解码、质量以及后台团队,打造全新以人眼视觉为标准的视频服务平台–腾讯丽影,在人工智慧与云端数据的助力下,规划出新世代多媒体服务的创新之路。

多媒体技术是互联网连接一切最自然的媒介,从文字、图片、语音、视频到人机互动,人与人的连结越发亲密,人与机器的互动则越发直觉。我本身踏入多媒体领域,最早始自研究生阶段加入的数位影像实验室,二十年来,从影像、视频到AI电脑视觉,从硬件、软件到服务,经历了无数多媒体技术的盛衰兴废,深深体悟到任何成功的多媒体技术都离不开人,唯有拥抱创新,以人为本,才能打造出触动人心的多媒体现象级产品,这也是丽影诞生的初衷。

LiveVideoStack:接下来聊聊丽影平台吧,SIGGRAPH Asia我看到关于丽影平台的分享——对视频进行修复和增强,看上去效果很不错。能否介绍下丽影平台?

高孟平:丽影平台是一个以人眼视觉为标准的视频服务平台,在视频理解,处理与评估领域大量引入日益成熟的人工智慧及云端大数据能力,并与传统的视频处理及编解码技术深度结合, 各个环节以人眼视觉为指标最优化, 进而达到视频“更小更漂亮”的用户最佳体验。

另一方面, 丽影平台在快速发展的同时,也认知到多媒体服务各个面向的不可分割性,在开放音频及图片引擎以及多模态整合的能力后,一个以人体观感为标准的多媒体服务平台或许更适合描述丽影。 无论从哪个面向来描述,丽影都希望成为一个以人为本的平台,乘载多媒体创新技术的各种可能。

LiveVideoStack:能否就丽影平台在视频分析,修复,处理,编码,传输,解码,评估(有参考或无参考)方面实现的方法与策略做些介绍?

高孟平:丽影的视频技术模块分为四大类, 视频理解,视频处理,视频编解码,视频评估。以传统视频技术为基础贯穿各模块,并在视频理解、处理与评估模块中引入多项深度学习的能力 (括弧内)。

视频理解

  • 人眼关注区检测 (ResNet-34 Feature Pyramid)
  • 场景检测 (ResNet-50)
  • 精彩视频 (BSN)
  • 视频指纹 (MobileNet)
  • 视频源分析 – 人眼遮蔽效应, 质量, 噪声

视频处理

  • 去压缩失真 (DenseNet)
  • 超分辨率 (DRRN)
  • 人眼视觉锐化增强
  • 防抖

视频编解码

  • 降噪器
  • 自动码率判断
  • Region of Interest
  • 各式编码器

视频评估

  • 有参考 – PSNR, SSIM, VMAF
  • 无参考 – 块效应, 锐化, 增强 (RankIQA)

在各个模块的开发环节, 我们以人眼视觉为衡量标准。 值得说明的是, 深度学习是视频技术与人眼视觉间连结的重要桥梁,在许多视频增强的训练集中,都是人工将人眼喜好的程度标注下来, 直接以人眼视觉为黄金标准。

LiveVideoStack:丽影平台处理的延迟是多少?能否处理直播视频流或实时交互场景下的视频(如视频会议)?

高孟平:丽影v1.1版的处理速度,在 720p 30fps,H.264的环境下,约为 0.5x real-time (一分钟视频耗时两分钟),这是在 Nvidia P40 单卡,8-CPU (2.4GHz,avx2) 机器上测得的数据。

同时丽影也提供分布式转码能力,可以在5台上述机器上达到80%的效率,将速度提升到 2x real-time。 由于目前采取多遍分析编码的策略,丽影暂时不支持实时场景(直播或会议),预计2019下半年才会开始提供实时服务。

LiveVideoStack:丽影平台的能力是通过服务端实现的,有没有可能在客户端(如手机)上也实现部分能力?(比如在手机上实现超分。)现在手机的CPU/GPU性能不断增强,一些高端手机还配有AI计算芯片。

高孟平:将部分丽影能力由服务端移植到客户端是2019年Q3的重点规划,建立丽影平台的端云闭环能力,将重要能力放在最适合的地方,达到带宽与计算资源的最佳利用。具体而言,包含去压缩失真及超分辨率等后处理能力会率先上客户端,其他如精彩视频等视频理解能力,落地采集端也能有效节省许多不必要的上传带宽。

LiveVideoStack:丽影平台在服务端实现底层硬件是什么平台,CPU,GPU、FPGA还是ASIC?

高孟平:丽影服务腾讯微视的大量视频是基于 CPU GPU 的架构。目前我们也正在分析ASIC的使用可能性。

LiveVideoStack:丽影平台使用了哪些Codec,可以输出哪些Codec流?(H.264、HEVC,VP9,AV1等)

高孟平:丽影目前支持 H.264 及 HEVC 的编码, 其余暂时还不支持。

LiveVideoStack:播放丽影平台输出的视频流,对客户端(Web或手机)有特别的要求吗?对CDN网络有定制要求吗?

高孟平:丽影输出的都是标准视频流,对客户端没有特别要求,也不需要对 CDN网络有特别的定制。

LiveVideoStack:丽影平台服务了腾讯内部和外部哪些产品?

高孟平:丽影提供服务给腾讯微视(100%头部PGC内容),腾讯云CDN加速中心,以及Now直播。

LiveVideoStack:未来丽影平台还会做哪些工作?有哪些迭代或新功能值得期待?

高孟平:2019年下半年丽影将会提供实时服务,包含直播及视频通信,同时也会解放许多手机端的人眼视觉AI技术,我们非常兴奋能将最先进的人眼视觉技术赋能于更多更广的多媒体应用,从云端到手机端,由高品质迈向实时应用。

同时,丽影平台在音视频图片文字等多模态整合,无参考视频增强质量评估,以及大规模视频检索方面的能力也是我们目前的重点,希望在未来的多媒体创新上,跟大家一起深度合作,改变这个世界。

LiveVideoStack:数据量的爆发以及计算力的增长让AI得以应用,未来几年您看好哪些技术有广泛的应用?

Immersive video applications

  • virtual reality
  • point cloud
  • volumetric video

multi-modal transformation

  • video-to-text journalism
  • text-to-video creation

multi-model search

  • video search by video, by image, by text (description)

智能安防 - 行为识别,可疑行为,准确率如何有效提升

LiveVideoStack:5G对于丽影平台会有哪些机会和挑战呢?

高孟平:带宽的成本降低会让一些成熟应用的技术成本更低廉,更看不出技术的差异性。然而带宽的增加,却更可以让新兴的应用加速普及,例如 8K virtual reality 以及 volumetric video。掌握人眼视觉的技术与标准,是视频服务的不变准则,也是丽影未来会持续投入与坚持的方向。

0 人点赞