来源:IBC 2021 主讲:Ben Bendre, Sharath Prasad 内容整理:赵研 演讲者主要介绍了 5G 边缘计算在媒体娱乐方面的应用,并以足球比赛的赛点直播为例,介绍了一种基于 5G MEC 的媒体系统。
目录
- 基于 5G 边缘计算的媒体娱乐服务
- 一种结合 5G 的边缘计算架构
- 用例分析:足球比赛的赛点直播
- 总结
基于 5G 边缘计算的媒体娱乐服务
5G 和边缘计算给媒体和娱乐方式都带来了极大影响。边缘计算是指分布式的计算体系 (多接入、多云等),将算力和存储能力分布在用户附近,以最大程度上利用带宽资源、降低延时,并且可以在一定程度上提供离线可靠性 (即使网络在短时间内掉线,也保有基本的运行能力)。通过与 AI/ML 等技术结合,可以带来更好的用户体验。
图1. 5G 和边缘计算场景
5G 和边缘计算在媒体和娱乐场景的应用广泛,如远程生产、直播、无线影音设备、5G 广播、AR/VR、云游戏、远程医疗等。以远程生产为例,通过将压缩后的实时同步视频从数据源传输到云端或生产设备,可以远程操控生产过程,此外,还可以支持多房间 (multi-room) 的分布式生产过程。
一种结合 5G 的边缘计算架构
接下来,Sharath Prasad 介绍了他们实验室运行的一种 5G 边缘计算架构,如图 2 所示,整个体系主要由四部分组成:边缘设备 (Edge Device)、网络边缘 (Network Edge)、核心网络 (Core Network) 和中心混合云端 (Central Hybrid Cloud)。为了确保整个系统的良好运行,需要用网络编排工具对各个组件进行自动协调和管理,如 5G 网络分片、IMS 冲突调度、传输层包管理等。
- 边缘设备:分布式计算的数据源,如相机、汽车、手机等;
- 网络边缘:主要包括 VDU (Virtualized Distributed Unit, 虚拟分布式单元) 和 MEC (Multi-access Edge Computing, 多接入边缘计算);
- 核心网络:由 5G 核心、IMS (IP Multimedia Subsystem, IP 多媒体子系统)、VCU (Virtualized Central Unit, 虚拟集中单元) 和传输层构成;
- 中心混合云端:包括 5G 和媒体系统中用于管理和监控的关键组件。
图2. 边缘计算架构图
如图所示,这里还引入了一个基于 AI 的闭环自动控制模块,用于自动检测和解决系统中的问题。首先,预测模块 (Predictive Insight, PI) 可以在问题发生前进行预测,并将该信息传递给主因分析系统 (Root Cause Analysis, RCA),该系统中训练了额外的 AI 模块,用于判断这些问题的根本原因,并交给自动感知模块 (Cognitive Automation, CA),由该模块来自动确定一种解决方式,如果 AI 系统认为该解决方案的置信度较高,则会唤醒相关引擎来自动执行。
用例分析:足球比赛的赛点直播
这里以足球比赛的直播为例对上述架构进一步说明。
足球比赛时,观众坐在会场的各个位置,可能不是最佳视角。因此当出现赛点时,需要通过大屏幕或手机直播实现最佳角度观看。为了应对这一需求,Sharath 等人采用图 3 中的系统架构进行设计,以实现自动赛点检测和最佳角度直播。
图3. 示例中基于 5G 边缘计算的应用架构
如图所示,系统的主要组件包括 IBM Cloud 开发工具、5G MEC 和部署在用户端的智能摄像机等。在一场足球比赛中,会有一个深度学习模型来检测进球等重要事件,并用另一个模型对红牌、黄牌、指定运动员等进行目标识别。模型训练完成后,将其封装并部署在分布式管理平台上,以此对边缘设备 (智能摄像机等) 进行自动控制。由此,智能摄像机就可以在比赛开始后自动抓取重要镜头,并将相应的视频流传输到服务器。由于该过程只在球场中发生特定事件时才会进行,因此对带宽的占用很少,MEC 也无需持续进行数据处理。
当球场中发生重要事件时,用户端 app 就会收到提醒,询问是否以最佳视角观看相应视频。而如果同时有很多用户发出视频流请求,会导致云端和网络负担突然加重,进而造成高延迟和低视频质量。因此,需要加入基于 AI 的闭环控制来应对这一情况。具体来说,一些网络探测器会从多个网络设备中收集数据,并将其实时传输给对应的机器学习模型,如果模型预测认为会产生较高的网络伏在,系统将会自动触发对数据包的调度任务,即优先给付费更多的用户提供数据流。
总结
总的来说,基于 5G 边缘计算的媒体服务主要有以下几方面需要注意:
- 基础架构:手动部署 Kubernetes 集群效率很低,最好选用分布式开发工具进行自动部署和管理,这里使用了 IBM Cloud Satellite;
- AI:模型的训练至关重要,这里使用了 YOLO v2 模型,其精度仍需进一步提升。当训练数据不足时,可以采用数据增广等方式来扩充数据集;
- 闭环自动控制:分布式系统中有许多重要节点,而对它们的控制和修正要尽可能的自动化。在网络层或应用层判断系统故障往往是困难的,这里的应对方案是:当系统出现问题时,会触发网络接口,并记录此时网络中的关键事件到日志中,以此将系统运行质量和日志内容相关联,而这些数据也可以用于 AI 模型的训练,以做到正确的事件原因分析;
- 媒体设备位置:分布式系统中会部署成百上千的服务器和边缘设备,并且不断会有新的设备加入,因此需要在边缘节点和中心管理程序之间进行异步通信,以此对系统设备进行自动管理。
最后附上演讲视频:
http://mpvideo.qpic.cn/0bc3zmabcaaadeajaqrapvrfbs6dchfqaeia.f10002.mp4?dis_k=e958b91130a9f7a7f4ff0fe2cccea9d2&dis_t=1649674975&vid=wxv_2293534074369687557&format_id=10002&support_redirect=0&mmversion=false