题目:Collaborative Streaming and Super Resolution Adaptation for Mobile Immersive Videos 来源:INFOCOM2023 链接:https://ieeexplore.ieee.org/document/10228906 作者:Lei Zhang, Haotian Guo等人 内容整理:胡玥麟 基于图块的流媒体和超分辨率是用于提高沉浸式视频流的带宽效率的两种代表性技术。前者允许通过将视频分割成多个独立可解码的图块来选择性下载用户视口中的内容。后者利用客户端计算,使用先进的神经网络模型将接收到的视频重建为更高质量。这项工作提出了 CASE,一种用于移动沉浸式视频的协作自适应流媒体和增强框架,它将超分辨率与基于图块的流媒体集成在一起,以动态带宽和有限计算能力优化用户体验。为了协调 CASE 中的视频传输和重建,论文团队统一视频质量评估、超分辨率的计算复杂度模型以及考虑传输和重建之间相互作用的缓冲区分析。论文团队进一步阐述了移动沉浸式视频流的体验质量(QoE)最大化问题,并提出了一种速率自适应算法,以基于李雅普诺夫优化理论做出下载和重建的最佳决策。广泛的评估结果验证了论文团队提出的方法的优越性,该方法提供了稳定的性能和显着的 QoE 改进,同时实现了播放流畅度和视频质量之间的权衡。
研究问题
基于图块的流媒体和超分辨率是用于提高沉浸式视频流的带宽效率的两种代表性技术。前者允许通过将视频分割成多个独立可解码的图块来选择性下载用户视口中的内容。后者利用客户端计算,使用先进的神经网络模型将接收到的视频重建为更高质量。基于图块的流媒体和 SR 的无缝集成是一项具有挑战性的任务,并且整体流媒体适应方案仍未得到研究
任务
提出了 CASE,一种用于移动沉浸式视频的协作自适应流媒体和增强框架,它将超分辨率与基于图块的流媒体集成在一起,以动态带宽和有限计算能力优化用户体验
动机
这种新的视频形式已被主要视频共享服务提供商(例如 YouTube 和 Facebook)和许多新兴的沉浸式视频应用程序广泛看到。由于沉浸式视频包含比传统视频大得多的场景,因此由于带宽需求过多,传输沉浸式视频具有挑战性。幸运的是,用户在视频播放过程中的给定时间只能看到整个帧的一部分。利用用户观看区域(称为视口)有限的事实,提出了基于图块的流媒体来提高带宽效率,它将全景视频在空间上划分为独立的可解码单元(称为图块)并选择性地传输子集用户视口中这些不重叠的图块。
贡献
为了协调 CASE 中的视频传输和重建,论文团队确定并解决了几个关键设计问题,包括统一视频质量评估、超分辨率的计算复杂度模型以及考虑传输和重建之间相互作用的缓冲区分析。论文团队进一步阐述了移动沉浸式视频流的体验质量(QoE)最大化问题,并提出了一种速率自适应算法,以基于Lyapunov优化理论做出下载和重建的最佳决策。提供了稳定的性能和显着的 QoE 改进,同时实现了播放流畅度和视频质量之间的权衡。
挑战
CASE 需要解决的以下挑战。
挑战一:如何统一评估视频质量,进行传输和重建?分辨率通常用于指示传输的视频质量,而显示重建视频与目标视频之间差异的比较指标通常用于重建。不同的衡量标准导致难以普遍评估视频质量。例如,很难判断流式传输 720p 原始视频或从传输的 360p 视频重建 1080p 视频是否可以提供更好的观看质量。因此缺乏针对不同版本的传输和重建视频的统一质量评估方法。
挑战二:视频切片的SR计算复杂度是多少?在沉浸式视频流中可能需要同时通过 SR 增强多个图块。由于移动客户端的计算能力有限,对每个图块都运行SR是不可行的。为此应该表征单个 SR 任务的计算复杂度,并分析并行运行多个 SR 任务的复杂度模型如何变化,这将有助于在时间约束下做出适当的增强决策。
挑战三:如何考虑速率适配中传输和重构之间的相互作用?视频流的严格延迟要求意味着视频块的下载和增强需要在播放截止时间之前完成。下载更高分辨率的图块需要更长的时间,因此重建的时间更少。因此,传输和重建之间的冲突关系及其对流媒体的影响应该得到仔细研究。整体流媒体速率适应应考虑它们的相互作用,以便在给定可用网络和计算资源的情况下智能地做出下载和增强决策。
论文团队主张通过这两种技术的协作来巩固基于图块的流媒体和移动沉浸式视频流的 SR 重建的优点。为了实现高资源利用率并提供优化的用户体验,需要做出两种类型的决策:下载决策(视频片段应以何种分辨率传输) 增强决策(应通过 SR(super-resolution) 重建视频片段到何种分辨率) 如图 1 所示,与仅做出下载决策的传统流媒体自适应以及简单地利用计算资源的解耦下载和增强自适应相比,协作下载和增强自适应方法通过有效利用网络和计算资源而呈现出巨大的优化潜力。
图 1
此外,传输和重建应该在播放截止时间之前完成,以满足视频流的延迟要求,这两者都需要时间并且影响缓冲容量。因此,两种决策会相互影响,从而使问题更加复杂化。
在这项工作中,论文团队提出了用于移动沉浸式视频的协作自适应流媒体和增强(CASE)框架,该框架通过智能、高效地利用可用网络带宽和客户端计算能力,共同调整流媒体和SR,以实现最佳的用户体验。
为了将 SR 融入基于图块的流媒体中,论文团队首先提出了一种统一的视频质量评估方法,用于评估不同版本的传输和重建视频。然后,论文团队通过多组测量来研究 SR 推理的计算复杂度模型,以检查各种影响因素。对于 CASE 中的整体速率自适应,论文团队制定了视口感知沉浸式视频流中的用户 QoE 优化问题,并提出了一种基于 Lyapunov 的高效解决方案,以在给定用户视口和资源限制的情况下做出最佳下载和增强决策。
论文方法
统一视频质量评估
Score()是计算比较分数的标准方法,v 是视频单元,v'是v的插值结果,v_base是公共基线(论文团队让vbase处于最高分辨率)
SR 重建时间建模
SR重建时间是非常有用的信息,可以用来帮助评估增强决策。与传统视频 SR 不同,沉浸式视频流中的 SR 增强可以同时对多个图块进行。对重建时间进行建模的难度有两个:首先,当 SR 模型的输入或输出分辨率发生变化时,单个 SR 任务的计算复杂度会发生变化;其次,尚不清楚当多个SR任务并行执行时,复杂性将受到怎样的影响。为了构建重建时间模型,论文团队通过运行不同设置的 SR 模型进行现实测量研究,并通过数据驱动分析确定关键影响因素。
单个SR任务的计算复杂度:程序的执行速度受到计算强度和硬件计算能力的影响。影响单个SR任务计算复杂度的最直接因素是所使用的SR模型的参数设置,这表明tile将使用特定的SR模型从输入分辨率重建到输出分辨率。论文团队通过固定一个并改变另一个来检查最终的重建时间来分析输入分辨率和输出分辨率(分别对应于决策对中的 r 和 ˆr )的影响。|r|和 |ˆr|表示图块在分辨率增强之前和之后具有的输入和输出像素的数量,a、b 和 c 是常数系数。
QoE模型
用户QoE可以通过不同方面来反映,包括平均视频质量、视频块内的质量方差以及块之间的质量变化。由于每个图块可以通过决策对 (ri,j, ˆri,j) 唯一标识,因此可以通过将决策对引入方程统一视频质量评估来计算其有效得分。其中 Wi,j ∈ [0, 1] 是每个图块的权重。
播放流畅度
需要更新和密切跟踪缓冲区占用情况以保证流畅播放。论文团队用 Bi 表示下载块 i 的可用带宽,用 f() 表示计算特定分辨率下图块大小的函数。SR模型通常具有相同的小尺寸m。因此,块 i 的下载时间 Di计算:
CASE速率适配
图 2
首先,对于在视口中分类的所有图块,算法限制它们具有相同的决策对,这有助于保证一致的观看体验并减少问题的搜索空间。其次,算法根据最近的视口预测性能动态调整 P_threshold。如果视口预测非常准确,则可以将 P_threshold 设置得更高,以仅接纳具有高观看概率的图块。第三,当播放中断时,应分析原因并采取相应措施,尽快恢复播放。如果发生卡顿时没有 SR 任务正在运行,则中断可能是由于网络不良或预测错误导致视口中缺少图块而导致的,在这种情况下,算法应该以最低分辨率下载丢失的图块。如果中断是由于重建时间过长造成的,算法会中止所有正在运行的 SR 任务,以播放未增强的下载版本。
实验设计与验证
数据集
浸式视频和用户观看轨迹来自开放数据集A dataset of head and eye movements for 360 videos,其中包括 57 个用户观看 19 个视频的观看轨迹。其次,为了模拟带宽波动,论文团队使用移动期间在蜂窝网络中捕获的 4G/LTE 带宽轨迹。
不同带宽下的性能
• TBRA :一种基于分块的自适应比特率流框架,它将动态调整分块方案,以在带宽效率和用户体验之间取得最佳权衡。TBRA是一种纯粹的下载适配方式。• PARSEC:使用 SR 的沉浸式视频流框架,但采用解耦的下载和增强适配,使用简单的流控制器逻辑来决定是省略每个图块、直接下载还是使用下载的低分辨率生成高分辨率图块。• MPC:使用模型预测控制框架实现的整体速率自适应方法,以解决与CASE 相同的优化问题。
EVMAF(增强型VMAF)评分是VMAF(视频多方法评估融合)模型的扩展,旨在改进视频质量的评估。将低带宽轨迹设置为从 3Mbps 到 8Mbps,平均为 5Mbps,而高带宽轨迹设置为从 6Mbps 到 13Mbps,平均为 10Mbps。分别在图 8 和图 7 中绘制了低迹线和高迹线下的平均 EVMAF 分数、平均重新缓冲时间和平均 EVMAF 变化。从图中可以看出,CASE 的性能明显优于 TBRA、PARSEC、MPC。与 TBRA、PARSEC、和 MPC,分别在低(高)带宽轨迹下。此外,CASE 在重新缓冲方面具有最佳性能,在低(高)带宽跟踪下,重新缓冲时间分别比 TBRA、PARSEC 和 MPC 少 31.5%、40%、50%(15.7%、55.5%、23.1%)。
结果表明,CASE极大地提高了播放流畅度,并且对视频质量也有明显的性能提升。
图 3
视口预测误差的容忍度
由于基于图块的方法是为视口感知流而设计的,因此它们的性能在很大程度上受到视口预测(Viewport Prediction)性能的影响。论文团队通过将四种方法的性能与错误预测和无错误预测进行比较来检查视口预测误差的容忍度。图 10 分别绘制了平均 QoE、平均重新缓冲时间和平均缓冲区占用率的结果。可以看到,CASE 在错误和无错误的情况下都优于其他模型。另一个观察结果是,CASE 和 TBRA 对视口预测错误具有更高的容忍度,因为它们的性能下降(特别是在播放平滑度方面)是适度的。与TBRA采用自适应平铺处理预测误差类似,CASE也可以有效处理不稳定的视口预测精度。
图 4
结论
CASE是一种用于移动沉浸式视频的协作自适应流媒体和增强框架,可以将 SR 无缝集成到基于图块的流媒体中并做出整体适应决策。
为了设计整体速率自适应算法,论文团队制定了用户 QoE 最大化问题,并基于 Lyapunov 优化理论对其进行了求解。与其他最先进的流媒体方法相比,评估结果表明,CASE 可以在各种网络条件下提供更好、更稳健的用户体验,实现高视频质量和流畅播放