来源:EMS '23 题目:LiveAE: Attention-based and Edge-assisted Viewport Prediction for Live 360° Video Streaming 作者:Zipeng Pan,Yuan Zhang,Tao Lin,Jinyao Yan 原文链接:https://dl.acm.org/doi/10.1145/3609395.3610597 内容整理:李雨航
引言
视口预测在实时360°视频流媒体中扮演着至关重要的角色,它决定了应预先获取哪些高质量的 tile ,从而影响用户体验。
现有的针对 VP 问题的大量研究工作都是在360°视频点播场景下,这些方法依赖于多个用户的历史头部移动轨迹来进行预测,即假设用户通常在视频帧内拥有相同的 ROI。然而这些方法不适用于实时360°视频,原因在于直播的实时性,上述多用户轨迹信息通常无法获得。
在实时360°视频领域,当前 VP 问题的研究趋势是将两类特征——视觉特征和头部移动轨迹整合起来,以实现更准确、稳定的预测。然而,这类方法面临在预测准确性和计算复杂度之间取得平衡的挑战。本文提出了一种名为 LiveAE 的新型基于注意力和边缘辅助的实时360°视频流媒体视口预测框架。使用名为 Vision Transformer (ViT)的预训练视频编码器进行通用视觉特征提取,并采用了交叉注意机制进行用户特定兴趣跟踪。为了解决计算复杂度问题,将前述的内容级的计算负载卸载到边缘服务器上,同时在客户端保留与轨迹相关的功能。
主要贡献总结如下:
- 在实时360°视频流媒体环境中提出了一种新颖的基于注意力和边缘辅助的视口预测框架,命名为LiveAE。
- 开发了一个预训练的 ViT 用于提取一般的视觉模式,并使用交叉注意力机制来捕捉用户特定的视觉兴趣。
- 大量实验证明,LiveAE在预测性能方面至少比表现最好的算法提高了12.8%,同时确保满足实时处理需求。
方法
图1 LiveAE 的系统架构
系统架构
图 1 展示了LiveAE的系统框架,VP 过程在边缘服务器和客户端之间进行联合处理。在边缘服务器端,从最近的 segment 和当前 segment(预先传输到边缘服务器中)中对视频帧进行子采样。为了获取用户个性化的兴趣,从客户端实时反馈回来的轨迹数据被用来截取出过去帧的 FoV 区域。然后将当前帧和截取后的过去帧输入到预训练的视频编码器中,以提取大多数用户的一般观看特征和当前用户的兴趣特征。这两组特征随后通过基于交叉注意力的兴趣增强模块进行处理,以获取适合当前用户的 ROI 特征。在客户端,轨迹数据通过基于轻量级 Transformer 的轨迹编码器进行处理,以提取时间运动特征。最后,运动特征和由边缘服务器提供的 ROI 特征被输入到联合预测器中,生成作为预测结果的 tile 概率分布矩阵。
图 2 交叉注意力 Transformer
预训练的视频编码器
本文使用 ViT(VisionTransformer)作为预训练视频编码器,以获取 360°视频的视觉表示。它是一种应用了 Transformer 模型的神经网络结构,在各种计算机视觉任务中都显示出了良好的结果,如图像分类、物体检测和图像分割等。
尽管现有的基于视觉的模型在识别一般用户的 RoI 方面表现出色,但这些区域可能无法完全代表当前用户的偏好。为了克服这点不足,本文提出如图 2 所示的视频编码器,输入两种类型的帧序列来捕捉用户兴趣特征。首先,使用均匀子采样从当前 segment 中选择