Tencent多媒体技术与解决方案

来源：Picture Coding Symposium Channel 2021 主讲人：Stephan Wenger & Songnan Li & Bing Jian & Soo-Chul Han 内容整理：王珅这篇文章为 Tencent Medialab 实验室在 PCS2021 上对Media lab 四个方向上的发展以及主要应用的介绍，包括多媒体标准、智能媒体、沉浸式媒体、媒体压缩与通信。Tencent Media lab 致力于研究新型多媒体技术，主要工作集中在多媒体数据的高效压缩与实时通信。

Tencent Media lab 简介
多媒体标准
智能媒体
- AI 视频编解码
- AI 视频增加与修复
- AI 视频分析
- AI 视频编辑
- AI 音乐
沉浸式媒体
- 360度视频
- 自由视
- 虚拟旅行
媒体压缩与通信
- 多媒体压缩挑战
- 实时视频通信
- 实时流媒体
- 云游戏
- Tencent Media Lab OAV1 encoder

1Tencent Media lab 简介

Tencent Media lab 致力于研究新型多媒体技术，主要工作集中在多媒体数据的高效压缩与实时通信。例如基于信号处理理论和深度学习方法的图像、视频等内容的处理、分析、质量评估。利用 AR、VR、XR 和全息技术为沉浸式媒体体验提供端到端解决方案的系统设计等。

长久以来许多产品系列和服务都配备了 Tencent Medialab 开发的技术和软件，并投入使用，到目前位置已经服务了超过一亿的终端用户。

2多媒体标准

首先第一部分题目为多媒体标准，主讲人为 Stephan Wenger。他提到标准是什么，我们为什么需要标准？对于标准的一个定义是，标准是建立工程或者技术标准方法流程和时间的前置性简明文件。在历史上创建标准的主要原因是互操作性，这在传统的通信领域是非常关键的，但对于现在的电信行业，尤其是在围墙环境中，这个问题越来越被弱化。

同时，第二个原因是如果设备做的事情是大致相同的，那么可以进一步大规模生产相同的硬件，这样就实现了规模经济带来成本的节约。这一点对硬件是非常重要的。另外在标准制定过程中符合反垄断的联合也可以节省成本，同时促进了竞争者对复杂技术的开发。

Tencent Media lab 参与了许多标准化组织的工作，包括:

Joint Video Experts Team (JVET)
- H.264/AVC,H.265/HEVC,H/266/VVC 以及其变体
MPEG （ISO/IEC JTC1/SC29 以及其 WGs）
- WG5（JVET的一部分）
- WG4 video，EVC，LCEVC
- WG7：Immersive, including point cloud coding
- WG3:Syetems, including scene description, file formsts, media multiplexers
- WG2:Requirements,including exploration activities
VCEG (ITU-T Q.6/16)
AVS3 (包括 AVS3、点云、系统等)
AOM （AV2, varous system-layer specs）
Video Quality Standards
3GPP (SA2，SA4，SA6，CT4，plenaries)
IETF (Internet Engineering Task Force)
Ecosystem Consortia

在过去十年（2013-2021）中，技术在渐进、缓慢的发展。在 bitrate 码率节省上有接近 50%，在编码端复杂度有显著的增加，解码端复杂度增加 100%。

在视频编码标准专利方面，H.264 只有一个专利池，费用为 0.1 美元，H.265 则有三个专利池，费用大于 1 美元，目前 H.266还是未知的，可能与 HEVC 相同。而 VP9、AV1 则是专利免费的。

3智能媒体

第二部分为智能媒体，主讲人为 Songnan Li。

主讲人提到现在当我们讨论智能时，我们通常指的是人工智能或者 AI，尤其是使用深度学习的人工智能。而智能是有不同层级的，基础只感知，比如我们希望人工智能可以阅读，观察，向人类一样理解世界。第二层和第三层是互动和决策，我们希望它能够以自然的方式与人互动，使用语言、手势或者其他的表达方式，并以一种可以信任的方式为人类做出决定，即使是在有风险的任务上，比如智能驾驶。

当然智能媒体更多关注的是基本层面，即利用人工智能或者深度学习进行媒体感知。对于媒体来说，其形式是多种多样的，可以是文字，音频，视频等等。为了提供更加沉浸式的媒体体验，我们不仅仅可以使用音乐和视频，还会使用风、水、椅子等等营造更加沉浸的体验，这一部分会在下一部分详细描述，在这里我们首先专注于视频的处理与应用。在智能媒体实验室中，我们做了许多与视频相关的工作。

主讲人介绍了五个方面的应用：AI 视频编解码、AI 视频增加与修复、AI 视频分析、AI 视频编辑、AI 音乐。

AI 视频编解码

在极低的码流条件下，如果使用 AI 的方法，仅传输一个参考图像，和一些稀疏的运动信息给解码端，解码器使用深度神经网络来重建视频，在相似的比特率下，可以得到比 H.265 更好的视频质量。当然仍有许多实际问题需要解决。

AI 视频增加与修复

主讲人展示了 AI 在视频增加与修复的各个不同场景下的效果，包括：去压缩失真、去雾、倍帧、超分辨率、色彩修正、低光照增强、视频去抖动、去划痕雪花、人脸修复、老电影修复、动画修复。可以看到基于深度学习的方法通常优于传统的方法，尤其是在视频数据的分布情况与训练数据一致时，效果更为明显。随着我们手机和电视显示屏分辨率的增加、帧率的增加、色彩动态范围的增加，随着客户需求的不断提高，在之前拍摄的视频则需要跟上显示设备的进步，我们就需要加强这些影片。目前已经有越来越多的视频增强算法在实践中使用深度学习，特别是那些在云端有足够处理能力的情况下。相信我们很快就可以看到基于深度学习的视频增强在手机或者电视上的应用，并且大概率有特定的硬件支撑。

AI 视频分析

在视频分析方面，一种应用是 AI 可以帮助我们分析视频的内容，对视频进行分类和标签，这样用户就可以使用这些类别信息搜索视频内容，推荐系统可以根据用户习惯推荐对应的视频种类。另一个案例是针对在线教育的，我们可以检测学生是否离屏幕太近，并且给出警告，这对学生来说是非常重要的，尤其是在新冠疫情下，在线学习变得非常普及，我们需要找到一种方法来保护学生的视力。第三个案例是分析视频的质量，而不是内容，假设用户生成的视频是过度曝光或者其他问题，导致视频质量很低，就需要 AI 来检测这些低质量的视频，并自动滤除掉他们，节省大量的人力。

AI 视频编辑

第四个应用视频编辑是基于视频分析的，在了解了视频的内容之后，我们的算法可以自动编辑视频，比如在足球比赛中提取不同事件的视频，包括进球等等；在游戏视频中提取高光时刻；也可以用于视频重构，通过裁剪 ROI 部分或者感兴趣的区域将横向的视频转换为纵向的。还可以用于黑白电影的彩色化，这也是 AI 视频编辑的一部分。

AI 音乐

最后一个应用是 AI 音乐，其应用包括对音乐进行情绪分类，例如快乐的、愤怒的等等，也可以进行一般的分类，将音乐划分为流行音乐、Rap、R&B、Jazz 等等。也可以将原始音乐文件进行音源分离，分成语音轨和背景音乐轨。我们还开发了视频和音乐的匹配算法，搜索音乐数据集为一个短视频找到最合适的音乐。

4沉浸式媒体

第三部分的主题是沉浸式媒体，主讲人 Bing Jian。

360度视频

沉浸式媒体与传统的 2D 视频图像内容不同，他与其他技术一起重现了某种类型的感知或者体验。首先介绍了 360 度视频，大多数的 360 度视频允许观众沿着三个旋转轴自由改变观看角度。我们不仅仅关注一些关键模块的研究和开发，同时也关心实施的细节和建设，端到端的性能解决方案具有快速强大，易于部署和高度可扩展的特点。

自由视

另一个应用是自由视，应用场景为直播或者重播的体育或娱乐活动。通过在体育场或舞台周围设置一系列高分辨率的摄像机组成阵列，连接到一个网络，并通过软件进行控制，从多个角度同时拍摄。这能够带来身临其境的观看体验，当然这是通过合成一些虚拟视角而不是固定的摄像机位置来实现的，所以在这种情况下自由度增加到 6，但有时候范围是有一定限制的，需要检查相机的设置，因为底层视图的合成仍然以图像为基础。因此对于自由视项目来说，我们的目标是建立端到端的解决方案，并考虑其中的所有挑战，包括同步等等。希望在不久的将来能够分享更多的成果。

虚拟旅行

最后一个是虚拟旅行，实际上我们大多数人都体验过虚拟旅行，尤其是在新冠疫情下，虚拟旅行越发流行，包括酒店房间的预定，博物馆展览，景区导览等等。而实现市场上许多虚拟旅行产品没有 3D 元素，因此体验的沉浸感较差。我们正在建立一个虚拟旅行解决方案，让他在数据方面更加灵活，允许从全景图像中重建3D模型。

5媒体压缩与通信

最后一部分是由主讲人 Soo-Chul Han 带来的，题目为媒体压缩与通信。

他提到腾讯是一个多维的公司，为许多类型的互联网重点技术提供服务。而视频等媒体的交付是一个关键的步骤，也是必不可少的。在各种各样的应用和产品中媒体和视频发挥着核心作用。

腾讯会议是腾讯的视频会议应用，支持各种视频会议和网络研讨会。腾讯视频是一个视频点播服务，在许多国家广泛流行和采用。QQ 和微信也是腾讯的，所有的这些移动应用程序其中包含许多类型的短视频。腾讯云是支持这些活动的基础设施。同时腾讯也是世界上最大的游戏公司腾讯游戏。

多媒体压缩挑战

在媒体压缩方面，腾讯面临许多挑战。一是当前视频压缩需要非常密集的计算。硬件支持是必需的，腾讯作为一个软件公司，与硬件供应商有非常密切的合作。

另一个挑战是，带宽非常有限，并且不断波动，所以如何有效地传输压缩的视频，并尽可能地减少质量损失，也是非常重要的。

还有有许多不同的国际标准压缩方式。因此，我们需要支持许多或所有的这些标准，以实现互操作性。我们希望使视频压缩具有内容意识、任务意识和接收者意识。内容意识意味着我们需要考虑到视频的内容，任务意识就是什么样的任务将被处理视频，而接收者意识是如果我们提供一个视频，要意识到谁是接收者，谁将观看我正在创建的视频。

实时视频通信

腾讯会议作为腾讯实时视频通信产品，可以满足视频会议等实时性要求高的任务，而可靠的视频会议必须是实时的，可以互动的。但这是非常具有挑战性的，我们需要为 PC Mac和各种移动平台进行优化。同时可以使用一些有趣的视频应用，例如在视频会议中对 ROI 区域进行增强。可以检测说话者的脸，然后增强这一部分或使视频质量在脸部周围更好，来实现更好的实时视频通信体验。

还需要考虑资源适应性，在典型的视频会议中会有许多不同的平台和设备会被使用，成百上千的参与者同时进来和出去，所以需要系统适应各种资源。同时我们必须要适应带宽的能力，考虑下载带宽，上行带宽等等，满足这些要求可能非常具有挑战性，同时我们希望视频音频同步，所以音频在实时视频通信中也起着非常重要的作用，而且还有屏幕内容共享，比如当我们使用 PowerPoint 幻灯片进行分享时，这就提出了一个不同的挑战，因为视频内容与相机拍摄的视频有很大的不同。

实时流媒体

实时流媒体是另一个应用。在这一方面也需要低延迟，同时具有更加广泛的视频内容，比如体育比赛，婚礼直播，生日派对直播等等。直播也是一个非常重要，不断发展的领域，所以这也需要自适应的比特率和分辨率来适应从电视到智能手机的多种设备类型。

云游戏

云游戏也是我们需要考虑的领域，这一方面确实需要超低延迟。对于游戏玩家来说，反应的轻微延迟都是不可接受的。通常游戏视频是由计算机生成的内容，但也有时与自然视频混合在一起，有的游戏玩家会在屏幕右下角放置一个摄像拍摄图像，玩家可能在谈论他的游戏，其余的内容为游戏内容，但这种混合内容的情况是非常具有挑战性的。

Tencent Media Lab OAV1 encoder

腾讯有一套 Tencent Media Lab OAV1 encoder，同时具有 5 种内置的预设模式，因此他是很容易进行使用的，在编码速度上由最慢到较慢，一直到最快。

附上演讲视频：

短视频视频分析腾讯会议文件存储沉浸式媒体

0 人点赞