5G,8K时代的加速到来,将极大缓解视频传输带宽和终端解码能力的约束。 而6DoF视频则在360度VR视频基础上更进一步,可以将传统平面视频在分辨率维度的清晰度提升转化为高自由度的空间信息量提升,并且通过可交互式视频体验突破移动端显示分辨率对5G时代视频体验的约束,为5G时代视频体验提升提供了新的无限可能。本文由阿里巴巴 高级算法专家 盛骁杰在LiveVideoStackCon 2019上海 的分享内容整理而成。
文 / 盛骁杰
整理 / LiveVideoStack
本次分享的主题是关于6DoF视频的标准和实践,通往下一代的高自由度视频体验。主要内容包括四个方面:第一,介绍什么是6DoF视频;第二,介绍目前国内和国际的标准组织,例如国际的MPEG标准组和国内的AVS标准组以及这些组织在6DoF视频上的一些进展;第三,介绍优酷在6DoF技术方面的实践以及后续业务价值的探索, 最后是对本次分享的总结以及6DoF技术未来的展望。
1. 6DoF视频:从平面视频到高自由度视频
就传统平面视频技术而言,简单来说,它是从三个维度不断提升用户的视频体验。第一个维度是分辨率,也就是清晰度方面的提升,比如说从540p时代过渡到1080p的时代,再到现在的4K和8K。第二个维度是亮度和色域,因为随着分辨率的上升,对于视频本身的颜色的还原度,包括亮度的对比度也提出了更高的要求。最近比较火的HDR也就是从亮度和色域这两个维度给用户带来更好的感知。第三个维度则是帧率,所谓的帧率即是说视频每秒钟有多少帧的图像来组成视频。目前普通的帧率,像电影是24帧,电视剧一般是30帧或者25帧。在这种情况我们使用手机观看屏幕还是会出现卡顿感和物体的运动模糊,这就是帧率不够高的问题。
以上就是平面视频的发展,我们可以看到在现在这个时间点上,平面视频在这三个维度里是在不断推进的,这也就是传统视频与平面视频改善用户体验的三个主要方向。
除了平面视频以外,我们怎样过渡高自由度的视频?VR360度视频是其中第一步,所谓VR360度视频就是用户可以在观看的过程当中实时改变观看的视角,但是用户三维空间中的位置是不能动的,只是能够在空间某个点上向周围的不同视角进行观看。所以,VR 360度视频也可以被称为是3DoF视频,因为它在空间中只有3个自由度。
可以看到上图左侧,这是一个OZO的360度视频采集设备,OZO上包含8个鱼眼相机,通过这8个鱼眼相机把空间360度的视频内容采集下来以后进行图像的拼接,最终形成一个360度视频,这就是VR360视频的采集设备。下一步,我们要从360度的3DoF视频过渡到6DoF视频,如上图右侧。其实6DoF的采集设备非常的灵活,可以理解为在空间当中想要为用户提供怎样的自由度,都可以通过自由组合相应相机的拍摄和采集策略来实现。
以上四张图分别是6DoF视频不同的四种采集方式。第一种是在某条路径上的采集。即在某一场景下设置一圈固定路径的摄像机,每个摄像机以一定的延时进行拍摄,最终实现在某一瞬间环绕观看特定场景的效果。右上角是由美国公司Lytro提出的光场采集方案。通过密集的在小面积中布满多个相机的采集设备。这些采集设备能够复原人在当前位置上下左右移动的观看体验。左下角展示是6DoF采集在更大场景下的应用,这是Intel提出的FreeD技术方案,例如在橄榄球或者篮球比赛的场馆,通过在场馆顶端部署了50多个高分辨率的高清相机进行采集,可实现将比赛通过点云重建并在虚拟场景中展示,从而可以在任意位置观看比赛的效果。右下角展示的是由我们提出的一种方案,即通过二维的摄像机阵列采集大范围的六自由度体验,具体实现效果会在后面详细介绍。
大家都知道,普通的视频就是图片的集合,而360度视频则是各个角度的视频拼成的全景视频,看起来也是普通的2D视频,但在渲染的时候可以根据一定的模型来展现出360度的效果。那么6DoF视频该如何表达?从技术上看,它是通过3D表达与3DoF表达两个分支融合而成,既有高自由度视频的特性,又有立体视觉的特性,是视频技术和视觉技术的结合。它的表达方式主要有三种,一种是点云,第二种是深度,第三种就是密集光场。
点云简单地说就是空间当中任意点的坐标(XYZ)的(YUV)数据。左上角展示的就是一个人的点云表达,当我们拉近观看的时候(右上角图),发现其实它是非密集的,拉到最近以后人脸会出现一些空洞,因为其点云表达从三维上讲是可以无限放缩的。所以点云其实就是表达了XYZ点上的YUV数据。点云不仅可以用来表达三维的模型还可以用来表达三维的场景,例如最下面图片展示的自动驾驶场景。在自动驾驶场景中使用较多的主要是通过三维建模的技术,建立街道的点云,这样在车辆自动行驶过程中就可以提前了解到周围的立体环境,优化自动驾驶技术。关于点云数据,将空间当中的XYZ和与YUV数据进行压缩,是一种专业性非常强的技术,目前MPEG PCC标准组在做的就是关于点云压缩的研究。
那么点云如何与6DoF进行关联?其实很简单,假设一个三维模型可以通过点云重建出来,那么我们就可以从各个角度进行观看,因为这就表示我们已经有了空间当中任意点XYZ的YUV信息。
第二种6DoF的表达方式就是深度,点云和深度看上去非常地接近,但其原理其实不一样,所谓的深度图就是每一个相机拍到的信息,相机当中每个像素点到相机的距离就叫做深度图。其实点云是一个完整的三维表达(唯一的),但是深度图可以是多样的,可以理解为如果三维重建一个物体,通过点云表达,得到的结果只有一份,但如果说使用深度从不同的角度拍摄物体则可以得到不同的深度,得到的结果与相机位置有关。左边展示的是16张从不同角度采集的篮球场景的纹理图,右边的是纹理所对应的深度图,深度图当中较亮的部分表示离相机比较近的物体,其它较暗的地方就表明那些像素离相机的位置越远。所以说深度图也是一种6DoF的表达方式。
第三种表达方式更前沿一些,前两种表达方式在工业界都有一定的应用,但是第三种表达则还处于实验和探索阶段。从上图中可以看到为了拍摄非常小的一个区域,通过密集光场可以达到8K*6K的分辨率,但能够通过焦距和空间位置的变化完全采集到像素的景深信息和XYZ信息。我们可以将8K的光场图像分解成16*13张,也就是两百多张常规的二维图片。但由于光场的数据量太大,要表达一个非常小的三维或者6DoF的场景,必须要更好地实现对大量数据进行压缩,因此密集光场表达目前还处于实验探索阶段。
2. MPEG和AVS的6DoF标准进展
接下来介绍目前国际上包括MPEG,AVS标准组在在6DoF方面的进展,来帮助大家理解6DoF在产业化,标准化过程中具体的作用。以上是MPEG标准组未来五年的路标,涵盖了当前视频技术发展的方向,大致可分为两层,绿色的代表系统层,红色是最核心的MediaCoding层。在MediaCoding层当中,未来的视频编码技术在其中作为一条分支就只有一种VVC(Versatile Video Coding),俗称H.266。而关于6DoF技术则在其中占据了很多的部分,比如说6DoF Audio;3DoF Video,也就是6DoF Video的第一阶段;Video Point Cloud Compression(视频点云压缩);Geometry Point Cloud Compression(基于几何的点云压缩)。大家可以看到在这部分当中,未来的平面视频编码H.266技术其实只是其中的一小部分,更多的部分则是围绕着未来下一代高自由度视频技术怎样定义标准的问题。
MPEG对于标准的6DoF体验的发展定义为:逐步从3DoF(360度视频)作为基础过渡到完全6DoF视频,下面几张图很清晰的表达了其发展的路径。3DoF就是人坐在椅子上可以到处看,但不能动。3DoF 则是它的第二阶段,3DoF 就是人同样是坐在椅子上可以到处看,但是在前后左右增加了一定的自由度,可以进行移动而不是固定在一个位置。从3DoF 再进一步过渡到Windowed 6DoF,所谓Windowed 6DoF就是模拟一个人站在窗前面,能够看外面的景色,在窗前面能够自由移动或者说能够往后退,但是不能把头伸出窗外观看的一种体验。从Windowed 6DoF最终再过渡到完全6DoF,达到可以在一个场景当中任意自由移动观看的效果。从现在的技术要过渡到6DoF技术当中要经过很长的一段路程,MPEG的完全6DoF的标准定义基本都要到2022年以后文本才能够成型。
接下来是MPEG细化到时间点上的一个路径,首先就是MPEG-I如何定义沉浸式的视频体验,它分为两个阶段,分别是Phase 1和Phase 2,Phase 1当中还分为Phase 1a和Phase 1b。Phase 1a就是360度视频,这项标准已经完成;, Phase 1b就是前面说到的3DoF 视频,就是在360度视频的基础上有一定的自由度来上下左右移动,这项标准将会在今年完成。另外一个Phase 2就是从Windowed 6DoF过渡到完全6DoF,大约将在2022年左右完成。同时MPEG-I标准在点云压缩方面也设置了两个专题组,一个是G-PCP(基于Graphic的点云压缩标准),另外一个就是V-PCC,就是将三维的点云映射到二维再用视频压缩方式进行压缩的一种方法。
接下去再简单介绍下国内的AVS标准组在6DoF标准方面的进展。AVS标准组是国内非常强大的视频标准组织,拥有包括AVS2标准以及现在的AVS3标准,其在压缩率上已经超过了现在的H.265标准,并且AVS2标准在广电系统中已经得到广泛的使用。目前AVS标准对于6DoF也已经有了明确的进展。第一在标准文档方面,AVS 6DoF标准文档 WD1.0已经完成;第二在测试用例方面,已经拥有两段20s/30个相机的纹理图 深度图的6DoF的测试用例;第三在参考软件方面,AVS标准已经将6DoF视频在手机端重建的软件标准化,并完全开源。通过这个参考软件结合测试用例就可以实现6DoF场景效果。
下面是6DoF视频的标准框架,首先由多相机采集的纹理图和深度图生成6DoF视频的表达,在通过平面视频的压缩技术之后,在终端进行基于深度图的实时渲染,最终呈现出6DoF的视频体验。
3. 6DoF技术实践和业务价值探索
在这里简单介绍一下6DoF视频体验三种典型的产品技术形态。
第一种技术形态是子弹时间视频,子弹时间视频是最初级的一种形态。是在一个场景当中能够让用户通过自定义的一条路径观看的高自由度的体验。例如在篮球比赛中,我希望在球员灌篮的时候可以在篮架绕一圈观看灌篮的动作,或者说在篮球比赛当中出现球员犯规但从当前角度不能确定其是否犯规时,希望可以换一个观看角度来进行观看,这些都是子弹时间视频能够达到的效果。
第二个产品形态即2D视频 6DoF,即在普通2D视频播放的过程中,在任意时间点,用户都可以选择进入那一时间点的6DoF自由视角交互式体验。在普通平面视频上做6DoF交互式体验的加法,这就是第二种产品形态。
第三种产品形态是完全颠覆性的,目前的实际应用还受制于一些基础设施,就是前面所说的带宽、计算能力以及算法效果。这种体验离现实的工业界的生产或者说工业界的用户能够接受还有一定的距离,但是在一些小型的场景下已经具有一定的落地价值和可能。后续5G/8K时代的到来将大大加速完全6DoF视频体验的落地。
4. 6DoF技术未来展望
前面介绍了高自由度视频目前可以达到的效果,以及对于现在视频行业可能的变革,接下来展望一下6DoF技术未来的发展。
在前面曾提到过,如何看视频的分辨率与自由度之间的关系,如上所示这里存在一个简单的换算关系。视频分辨率可以从540p、1080p到4K再到8K,手机的分辨率一般为1080p,达到1080p以上用户在手机上已经几乎没有办法分辨其差别,那么如果到了4K、8K时代,手机端的视频发展以及高分辨率存在的意义也就成为一个问题。但如果从高自由度的维度来看,完全的6DoF视频,如果要呈现出像前面所示的大角度的高自由度体验,对于视频分辨率要求至少在8K以上。对于高自由度视频来说,目前视频的所能达到的分辨率远远不够用,这对于现在的视频行业来说可能是一个新的变革。
在这里可以换算一下,如果我们采用了32个相机来采集高自由度视频,每个相机分辨率是540P,算上深度图的传输,整体数据传输量就要达到8K级别,如果说需要在手机端看到1080P的高自由度图像,同样自由度就需要16K的分辨率。这就为视频的体验提升打开了新的可能,也回答了以后视频的发展方向以及更高分辨率到底有什么用的问题。
在新的技术时代我们要做到更好的视频体验,需要哪几个方面的突破?
第一就是5G, 5G技术能够较好的解决传输带宽的问题,在当前网络环境下对于4K的视频,并不能流畅的进行播放。而对于高自由度视频来说,对带宽的需求更大。
第二个是终端的约束,手机端目前最大的解码能力(硬解码)是4K,目前最新的手机都可以支持,但是8K的解码现在只有很少的手机可以支持,但是我们如果想要做到更好的6DoF视频体验,8K只是一个基础门槛。那么我们需要的就是等待手机端能够实现更好的解码支持。
最后一个瓶颈也是目前来说很大的技术问题,庞大的数据量要在云端实现三维的重建,算法效率非常低的。从当前我们的研究的结果来看,AI在3D方面已经能够达到传统算法类似的效果,但是也有其缺陷,即非常依赖于不同场景的数据集,这方面还需要算法的不断优化。
总结
以下是我个人的展望,总的来说就是通过5G对于下行带宽约束的放松,8K对于解码的能力约束的放松,还有AI对于计算量约束的放松。可以预见的是高自由度视频能够带来越来越多技术上的突破和用户价值。
最后总结下今天演讲的主要内容,我们面对的是平面视频显示分辨率的极限,无论是在手机还是在电视上都会面临达到4K和8K后,视频体验发展极限的问题。而6DoF视频则提供了高自由度视频体验的多种可能。
第二,现在无论是国外的MPEG标准,还是国内的AVS标准,在6DoF视频方面已经有了非常清晰的布局目标,只是要到达完全6DoF视频体验的水平可能还会有一段时间。
第三点, 6DoF在不同的产品形态上已经逐步展现出来价值,特别是目前已经探索出的比较好的落地点,如体育场景、综艺场景等会非常适合采用高自由度的技术,因为它强调的是单位时间的信息密度和空间信息量,高自由度技术是在给用户提供的信息增量和信息密度上的价值,使用户可以感受到更多有价值的信息。
最后一点是前面总结的,5G、8K和AI,包括异构计算能力的提升,未来将极大的改善6DoF视频在各个业务方面的瓶颈,使得用户的体验能够越来越好。
LiveVideoStack 招募
LiveVideoStack正在招募编辑/记者/运营,与全球顶尖多媒及技术专家和LiveVideoStack年轻的伙伴一起,推动多媒体技术生态发展。了解岗位信息请在BOSS直聘上搜索“LiveVideoStack”,或通过微信“Tony_Bao_”与主编包研交流。