本文来自华为多媒体实验室首席科学家、实验室副主任王田在LiveVideoStackCon 2017上的分享。他分享了沉浸式媒体的进展与演进路线,展现了可期的多媒体新体验。
文 / 王田
整理 / LiveVideoStack
概览:
什么是Immersive Media?
我们可以称之为沉浸式或浸入式的媒体。作为一种体验,人们对这方面的需求,或者愿望可以追溯到很远。广义上来说,通过音视频的技术,产生身临其境的感觉,就叫做浸入式的媒体。比如电话使得打电话人可以跟一个远在天边的人好像当面一样的交谈;用电视看一部电影,虽然坐在家里,但是仿佛到了电影的现场,只不过这些场景浸入式的感觉不是特别强烈。
众所周知,当你戴上VR头盔之后会有非常强烈的沉浸在现场的感觉。而近几年,Immersive Media变得越来越热,很大的一个原因就是VR的兴起。接下来主要介绍我们在这方面的一些研究工作,特别是在标准组织MPEG里是如何看待Immersive Media未来发展的,并且进行了哪些相应的工作。
Immersive Standards Organizations Overview
从标准的组织上来说,以MPEG的组织为例。并不是说国际上只有MPEG做这些, 涉及到Immersive Media的国际组织是非常多的, 如3GPP,SA4也同样涉及到这方面的相应工作。最近3GPP发布了EVS音频Codec。在EVS之后,新的Codec也是针对VR音频的。还有一些Industry Forum,如VR-IF,也是相关产业界对怎么才能在产业方向上推动浸入式媒体发展进行讨论的地方。
MPEG Standards
首先简单的介绍一下MPEG,可能大家对MPEG了解比较多,因为MPEG对整个数字媒体行业,整个产业发挥了巨大的作用。在30多年前,MPEG成立之初,整个媒体行业正在从模拟时代全面向数字化时代转移。MPEG制定的标准为整个数字媒体的蓬勃发展和近几十年的繁荣起到了很大的作用。MPEG2的Video是数字电视的一个关键标准,有了它才有了数字电视。那么像AVC(这是MPEG的叫法,可能大家更熟悉的名字叫H.264),对视频从标准分辨率到高清分辨率转变发挥了很大作用,直到现在还在被大家广泛应用。后来随着超高清的发展,出现了HEVC(H.265) 。
除了编码,MPEG还做了很多系统方面的工作,如Dash,现在也是非常的流行。Dash是一个Streaming的传输标准。通过MPEG这些年的发展历史,我们其实可以看到整个媒体的发展趋势。其中很大的一个趋势就是从模拟到数字的转型,之后一个很大的驱动就是更高的分辨率,过去的这二十年一直在这个方向不停的发展。语音通话是这样的,开始时是窄带话音,后来到宽带话音,再到超宽带。视频也是一样,从一开始普通的SD分辨率,到HD再到现在的UHD,这方面的发展趋势非常明显。另一个可以看到的趋势就是传输从以前传统的传输通道逐渐地向互联网转移,其中最重要的需求就是流畅。因此,流畅性也就成为了很重要的问题,像Dash这样的一些标准就是为了解决互联网和IP网络上流畅和高效传输问题。在过去这些年,高清和流畅一直是技术发展的趋势,那么在未来,什么是最重要的呢?
一个很重要的趋势就是沉浸式的Immersive Media,当然并不是说Immersive是未来唯一的方向,还有其它重要的方向,比如:超高清—8K,或者媒体智能化等方向。但我认为Immersive Media仍是未来的发展趋势中非常重要的一部分。
MPEG Roadmap
2016年10月,MPEG Vision 2020 会议中MPEG为大家展示了未来的一段时间里会做些什么。其中的点云压缩,下一代的视频编码,Light field等研究,都是MPEG关于未来Immersive Media的一些工作。
简单的介绍下我们在这方面的想法。开始是3自由度,360度的,给大家带来一个沉浸式的体验,未来还有向6自由度的转移。后面会具体讲解,3自由度和6自由度的含义。MPEG将整体浸入式的Media方面的工作放在一起统称为MPEG-I(MPEG Immersive Media)。那么Immersive Media里包括几个部分?
MPEG-I Overview
MPEG将Immersive Media分成了7个部分,首先是在Architectures方面;Part2:Omnidirectional Media Format,简称为OMAF,它在第一版的时候,主要是一个三自由度的,现在称之为VR体验的东西,标准已经基本上制定完成。Part3是现在受关注度最高的,下一代的视频编解码;Part4是关于Audio的;Part5是Point Cloud Compression(点云压缩) 。接下来主要介绍Part2,Part3和Part5部分。
Data Representation for Immersive Media
关于Immersive Media的发展,我们的目标是浸入式:真正身临其境的体验。什么是真正的身临其境?它也是一个逐步演进的过程,所谓三自由度,也可以称为2.5D,它只是你在一个地方,比如说站在一个点上,向四周看都能看得到,不像以前只是看到盒子里的电视。通过三自由度的体验,我们能够360度地沉浸在一个现场中。如果是静态的,其实可以理解为是全景的图片。如果全景的图片是动态,就是全景视频,也就是现在说的VR视频。但是VR视频是有一定局限性的,人是不能够移动的,不能选择任意的一个地方去看。如果你能自由移动,达到真正的6自由度,将是完全不一样的体验。如果是静态的,你可以在一个静态空间场景中6自由度非常自由地去漫游, 那就是真正的3D,或者称之为Model。动态的话就是Volumetric Video,而动态3D、6自由度的Video是一个非常具有挑战的目标,目前来说也是我们在浸入式媒体领域比较长远的一个挑战目标。但是相信我们整个技术的进展会逐渐地从3自由度向6自由度去转移,去实现。
随着6自由度的提出,所谓的真3D,包括信号的表示都会发生变化,以前都是二维的,XY加上RGB色彩信息。未来的话,怎么去表现真3D的环境?可能就要从pixel转成Voxel,转成3D信息的呈现,这个对我们来说是非常具有挑战性的。其实不仅仅是一个格式,可能对我们之前传统的整套处理框架,Coding Framework等都会带来一些革命性的变化,而且信息量会大幅度地上升。对我们整个的传输,网络,各个方面影响都是非常大的。所谓3自由度,6自由度,整个过渡的过程中,可能还会有一些中间阶段,取决于具体的技术实现方法。比方说3自由度,就是在某个地方、某一个点在三个轴上都可以旋转,可以转头,也可以上下低头,也可以摆头。那么如果能够在一个很小的范围内进行移动,就是三自由度加3DoF 。那么如果在一个稍微大一点,比方是一个窗口这样的范围内移动,就是窗口6自由度。但是它还有一定的局限性,只是在一个窗口内是可以自由移动。最后过渡到真正的6自由度,完全自由地移动。那怎么去实现?很大的一个挑战在于你怎么去获得这些信息,获得信息有各种各样的办法,我们知道的有光场的办法,也可以通过很多摄像头阵列来获取。
MPEG-I Part 2: OMAF Omnidirectional Media Format
对MPEG来说更主要的还是讨论支持这样场景的编码传输体系怎么去做。MPEG-I制订了自己的路线图,就是从Phase 1到Phase 2,前面也提到了几个部分,有Video Coding的部分,有Audio的部分,还有传输系统方面的工作。
那么有关OMAF,MPEG所理解的整体的pipeline是怎样的?首先是采集,获得一个真正的、非常好的Immersive Media的信息是非常有挑战性的,三自由度的VR其实也是很有挑战性的。怎样才能获取360度视频?这里面涉及到很多的技术细节,怎么用多摄像头去拼接,拼接的过程中也会有一些技术问题。然后是怎样进行编码,现在还是采用传统的编码,先转换成2D的视频,然后再编码和传输。最后rendering的时候又会有很多挑战,例如在进行头部运动的时候,需要在很短的延时下获得高清的效果。
MPEG在这方面所做的标准化包括哪些部分呢?前面就是采集部分,这部分并不是MPEG本身研究的范畴。采集完以后,投影展开虽然不会制订在标准里,但它跟标准是相关的。简单地像地图那样的展开, 我们都知道那样的效率不是很好,还有很多其他的办法。在那之后的编码到后面的传输,这部分主要是图中的E F G三个部分,是MPEG制订标准的部分。
简单的说,在OMAF的第一版里,支持三自由度,还是简单地延用以前的HEVC,那么是不是用H.265和Dash一搭就成了?其实不是这么简单,因为它还涉及到几个挑战,一个比较大的挑战就是带宽的问题,VR的带宽需求是非常大的,我们知道现在的VR眼镜,它的单眼分辨率还不是非常高。而业界发展非常快,明年可能就会有1.5K×1.5K,也许是2K×2K这样的眼镜出现,如果你在一个单眼上就能支持4K这样的分辨率,那么整个360度需要多少?也许是8K,甚至更高。那么整体传输的流量是非常大的,怎么才能够非常有效地在现有网络上逐步实现?需要一个有效的解决方案。另外就是延时问题。当然,流量和延时可以有一定的互换性,如果传的东西非常多,可能延时就容易解决一些,转头的时候信息都能有。但是如果说没有那么大的流量,可以在FOV里传的质量非常高,而在其他地方,不需要传那么高质量。那么就涉及到在系统层上怎样切换,时延、体验怎样保证的问题。MPEG标准的制订就是要解决这样的问题。现在MPEG标准采纳了一个双流的方案,就是在FOV(正在看的视角)上,达到一个非常好的质量,但是整个全球的信息也是同时会传的。同时传两个流,那么在转头的时候,会利用小分辨率全球(小球)的信息,保证播放不中断,然后再切换到新的FOV上取得更高质量的视频。
现在做这方面研究的非常多,也存在很多私有的方案。但是我们相信标准的方案还是非常有吸引力的。对于整个产业,我们相信VR视频会有一个加速发展的过程,虽然最近VR的投资热度有一点下降,但我相信随着采集、呈现、跟踪等各个方面体验的逐步提升,VR会来到大家身边。想要让整个产业能够发展的更好,标准化仍然是非常重要的一个部分。
之后是大部分人比较关心的视频编码部分, MPEG从事这方面研究工作的人员是非常多的。这部分的视频编码标准可以理解为就是HEVC(H.265)的下一代。但是它也是在Immersive Media框架之下,所以是MPEG I的Part3,就像HEVC实际上是MPEG H的一部分。MPEG主席莱昂纳多2017年说过,下一代的视频编码标准,我们称之为FVC,会原生支持3自由度,是不是能支持到六自由度,目前来说还是不确定的。
新标准制订的节奏是什么样的?从2013年上一代HEVC视频编码的标准制订结束之后,FVC就已经启动了相应的研究。从标准组织上来说,2017年才是标准真正启动的时候,参与这方面研究的公司也是非常多的, 华为媒体技术实验室也投入很大的精力参与国际标准的制订。2018年Test model可能就会出来。2017年末在澳门召开MPEG 120会议,就会启动CfP,就是征集大家的技术提案。征集完之后,2018年就会有测试、竞争,选一个Test Model,选择下一代视频编码标准的基础框架。基础框架制订之后,可能在2020年左右,下一代的视频编码标准就会制订出来。
Immersive Video Compression
MPEG称之为FVC的下一代视频编码标准。参与的厂商还是非常多的,华为只是其中之一,还有Qualcomm、Samsung和MediaTek等厂商,还有很多AOM的成员在MPEG一起做研究。
FVC 相对于HEVC的性能提升
视频编码仍然是非常受重视的,其中传统的2D视频编码效率的提升,即针对HEVC(H.265)的提升还是非常有价值。目前来说标准还没有正式开始,我们也了解了一些,目前很多的观点仍然是会重点关注2D:提升一倍效率,降低码率50%,然后在这之上会叠加一些针对3自由度VR等的一些编码工具。
传统上来说,MPEG主要是针对娱乐视频,开始时MPEG得到的最广泛应用是中国厂商用在VCD上,还只是看电影电视等娱乐视频。其实下一代的视频编码一个很重要的趋势是不仅仅只针对娱乐视频,电影电视或者UGC的内容,VR是一个需求,还有很多像监控和行业视频方面的需求驱动未来视频编码技术的研究。现在,基于对内容的理解,视觉技术的发展是非常热的。那么视频编码和整个视频体系怎么跟它去结合,怎么应用在一些新的应用场景上,才能够更好地支持新的需求,这也是一个很重要的方面,在标准组织也有很多这样的讨论。不仅仅是高分辨率,HDR,WCG这些对高体验非常重要。UHD不仅仅是指分辨率,还有高动态等都是在一起的,下一代也是一样。HDR在HEVC里,不是内部的完整统一的一体,到了下一代标准时候,会内建支持HDR的需求。
传统上来说,视频编码的标准跟无线差不多,十年才会有一代新的标准。目前看节奏还是有加快的趋势,我们希望标准可以更快制定出来。从目前我们看到的参考代码,平台上可以看到的提升已经有大概30%。也就是说,针对H.265,已经取得了30%的编码效率的提升。从目前的准备度来看,与H.265启动的时候是比较接近的,甚至还会更好一些。
这里涉及到的关键技术来自于哪里?一个是更灵活的图像块划分技术,还有解码端运动矢量推导等等。总之,很多这样的技术叠加,使得下一代FVC相对H.265会有比较大的提升。当然我们现在还没有看到各家自己储备的独有技术,这是目前在公开平台上看到的技术,每家参与方可能还会有些自己的技术尚未公开。等到明年标准启动测试,Test model出来的时候,可能会看到更多各家的储备技术。我们相信下一代的标准从效率上还是会有很大的提升。
在视频编码的趋势也能看到,传统的技术,混合编码这一套的框架其实已经存在了很多年。随着最近几年机器学习技术的热火,越来越多的人去尝试使用机器学习的方法提升现有编码框架的效率。还有一种方式是直接颠覆现有的编码框架。传统混合编码框架有预测,运动矢量估计,熵编码等,是不是能够通过机器学习的方法,有个完全颠覆性的框架做出来呢?很多人在考虑这样的问题。就目前的一些尝试来说,短期内实现还是比较困难的。我相信在FVC阶段,也许会有些个别的基于机器学习的技术出现,但是整体上的颠覆还是比较困难。但我认为基于机器学习的技术在编码里的应用的研究非常重要,我们也在这方面进行研究,但还需要一段时间才能真正的成熟,真正找到一个更好的方法。
Beyond VR Streaming: Light Field Processng
View Synthesis for 6DoF VR
在视频编码领域,VR视频以后,Immersive Video Coding会是个什么样的情况?MPEG在这方面研究已经是有相当长的一段的时间。开始时进行了比较多Multiview(多视点)的研究。最近提出了一些新技术,比如说用Camera阵列获取光场的信息。Multiview (多视点)是不是就可以实现6自由度,对于这个,MPEG还有很多讨论,虽然参与这方面的人不是非常多,但这部分的讨论还是一直在的。视点合成采用很多摄像头,对摄像头之间的一些视点可以通过插值来获得。视点合成肯定不是简单的插值计算,通过计算来获得深度信息,然后才能得到更好的插值图像。随着最近这几年的技术发展,光场信息的获取有了更多的选择。大家可能也知道,前不久微软做了一个叫Holoportation的演示,可以不用非常多的摄像头,只用很少的摄像头,就可以获得一个3D运动物体的模型,获得了动态3D的模型后就可以实现真正的6自由度漫游。与视点合成不同,不仅仅只是基于深度获取插值视点信息,而是真正基于完整的建模,这是一个不同的思路。对于这样的动态3D模型,怎么去实现信号的表示、压缩和传输,可能都会带来很不同的一些技术。
MPEG-I Part 5: Point Cloud Compression
MPEG 3D Graphics Activities
点云是针对这样的一个场景,3D建模之后的压缩、存储和传输。当然也不是说3D模型就一定是点云方式去表示,可能还会有其他的方式是更加有效的。点云是目前在MPEG Immersive Media研究里的一个方向,参与这部分研究的人还不能说特别的多,但也是值得关注的一部分。传统上做音视频的,尤其视频的人主要研究图像的技术,都是基于像素的信号处理。而到了3D时代,就不仅仅是基于像素的处理技术,尤其现在的VR,AR,还有一些虚拟现实的应用,与游戏一样,需要大量图形学方面的技术。基于图形这方面的研究MPEG也是有的,在很早的时候,就做过一些图形方面的研究工作,包括Mesh的压缩,也有过一些研究工作成果。点云这部分正在进行的标准化的工作,就是点云如何进行压缩。目前已经有时间表,但是时间表还可能会变化,根据现在的进度的情况,可能还会有一些调整。可以看到MPEG内部也有些争论,是不是应该加速标准的制订。有些观念认为现在产业真正的6自由度的应用还非常的困难,还非常的远,可以稍微缓一点,多做些更基础的研究,做的更扎实一些。而MPEG主席还是更倾向于加快标准的制定。一定要制定出来一个东西,像现在的互联网那样敏捷,在不停迭代,不停地进步。
MPEG Point Cloud Compression
针对这方面,有三种类型的应用,一种就是所谓的静态大规模场景的重建,对大规模3D场景用点云描述它并进行压缩。第二种是动态的,比如说人的运动,应用场景其实也很容易想象。比方说未来的体育直播,比如乒乓球比赛,对场中每个人的动态进行3D建模,就可以选择在任意一个地方,任意一个角度观看。比方说一个演唱会,不仅仅可以站在场下看,如果对场上的演唱家能够进行3D建模,就能在他身边观看。整个的信息场景都是动态的。第三个主要是针对自动驾驶的,就是边扫描,边建图,获得周围的3D的信息,它是一个渐进的过程。基于这样的场景,点云3D信息如何压缩。从目前看来,这方面研究还是在一个初期的阶段,所以现有算法与传统视频编码框架比较接近,但是我相信在这方面,会有很多新的东西出现。随着真正的3D技术得到更多应用,我们会看到这一领域更快速地发展。
总结
前面主要介绍了Immersive Media在MPEG标准组织里的一些情况。Immersive Media已经存在很长时间,而且在今后一段时间还会有比较快速的发展。它会带来巨大的信息量,跟2D时代相比,它的信息量或者数据量会有巨大的增长。不仅采集呈现,存储与传输,也有很大的挑战,压缩编码这部分仍然是会非常重要的,国际标准组织在这方面可能还是会发挥很大的作用。3自由度的视频,像OMAF这样的标准已经基本完成,下一步就是要推动产业的应用,会比较快发展起来。6自由度还会有较长一段路要走,目前对于Immersive Media来说,应用是最关键的,怎么才能够推动实际的应用,像VR Video,让更多的人用,体验不断提升是最关键的。