目录
- 背景介绍
- Txt2Vid 方法介绍
- 结果展示
背景介绍
图1 问题背景
视频流代表了当今互联网流量的大部分份额,估计高达 80% 。随着新冠疫情的爆发,互联网服务的使用量激增(50 - 100%),Zoom 等视频会议工具的使用量增加了 10 倍。一个典型的视频会议通话会消耗从 100 Kbps 到几 Mbps 的带宽。不幸的是,世界上绝大多数人口无法访问高带宽网络连接或面临间歇性连接问题。
图2 需求举例
这是一个正在使用 Zoom 进行视频通话的例子。Alice 和 Bob 正在进行通话,Alice 发现 Bob 的视频卡住了,然后 Bob 关掉了视频,跟 Alice 进行语音通话。虽然通话可以正常进行,但 Alice 仍然希望能够看到 Bob 正在通话的人脸,这就是视频通话的需求。
图3 不同信息载体的带宽对比
从图 3 可以观察到,与传输视频相比,传输音频可以节省 10 倍的带宽。如果传输文本,则可以节省更多,相较于视频可以节省 100 倍到 1000 倍的带宽。于是我们想到,可以将网络摄像头产生的音视频转化为文本传输,从而节省带宽。
图4 评价指标
传统的评价指标只针对单个样本的保真度(单个音频或单个视频),例如 PSNR。最新的趋势是用主观评价指标来评价,例如 VMAF,但并没有一个主观评价指标可以同时评价音频和视频。一个简单的想法是,视频更重要,只看视频的指标即可,但这并不总是正确的。例如,DEMUXED 2021 的记录指南上写道,音频质量比视频质量更重要。为了同兼顾视频和音频体验,在我们的工作中,我们使用总的体验质量(QoE)作为评价指标。
Txt2Vid 方法介绍
图5 demo 展示
那么我们是否可以将音视频转化为文本传输并将文本还原回视频,在跟标准编码器比较的情况下,使用更少的带宽达到相同的 QoE 呢?答案是可以。从图 5 中可以看到(文末附带的原视频中可以看到图中两个视频的比较),两个视频的主观质量相近,但占用的带宽的相差极大。通过我们方法传输的视频仅需 100 bps,而通过 H.264 传输视频,AAC 传输音频的方法需要 100,000 bps,两者相差 1000 倍。
图6 方法流程图
在传统的方法中,传输一段音视频需要在发送端对音频和视频分别进行编码处理,然后将编码后的音频和视频同时传输到接收端解码还原出原视频。而我们提出的 Txt2Vid 方法则完全不同,该方法分为两步。首先是将一段很短的驱动视频( 30 秒左右)传输到接收端,需要注意的是该操作只进行一次,后续传输过程无需再传输驱动视频。由于在接收端会有很多不同人脸的驱动视频,因此每段视频都需要用 User ID 标记。第二步是将音频转换为文本,并为文本标记上跟驱动视频相匹配的 User ID。传输过程仅仅传输文本,在接收端将文本转换为音频,并用音频和驱动视频生成最终的人脸视频。由于驱动视频可以事先就传输给接收端并且驱动视频其实很短,因此在计算码率时,只考虑传输的文本的码率。比较两种方法可以看到,Txt2Vid 的方法传输的码率是传统方法的 1 / 1000。
图7 解码端工具
在解码端有两个主要的软件,一个负责将文本转换为音频,一个负责用音频和驱动视频实现嘴唇运动合成。尽管有很多工具可以实现这两个功能,但是经过比较,我们选择用 RESEMBLE AI 实现文本向音频转换,用 Wav2Lip 实现嘴唇合成,这两个都是开源工具。
结果展示
图8 比较时使用的数据
在对结果进行比较时,我们选择了 6 段不同的内容,并用当前最先进的编码器分别对视频(H.264 和 AV1)和音频(AAC)进行编码,最后比较 84 个基准音视频和 6 个 Txt2Vid 合成的音视频的主观质量。
图9 主观评价
我们选择了 242 个志愿者进行主观评价,我们每次都从基准视频和 Txt2Vid 视频中分别随机选择一个进行比较,每个参与者都进行了 40 次比较。
图10 与 H.264 AAC 比较
图 10 展示的是与 H.264 AAC 比较的结果。图中 X 轴表示压缩率,Y 轴表示 Txt2Vid 的偏好程度。图中蓝色的虚线是 50 % ,表示 Txt2Vid 的偏好程度与 H.264 AAC 相同,即主观质量相同。从图 10 中可以看到,在等质量的情况下,Txt2Vid 可以节省 1000 倍的码率。
图11 与 AV1 AAC 比较
图 11 展示的是与 AV1 AAC 比较的结果。从图 11 中可以看到,在等质量的情况下,Txt2Vid 可以节省 200 倍的码率。这是由于 AV1 是更好的视频编码器。
图12 Demo 展示
演讲的最后,Pulkit 展示了 Txt2Vid 的功能,输入一段文本后,Txt2Vid 可以将文本转换为音频播放,并驱动人脸的嘴唇运动,主观质量较好。
图13 一些缺点
同时,他也提到了目前 Txt2Vid 的一些缺点。首先是解码端点计算复杂度高,但 Pulkit 相信随着硬件的进步以及模型的进步会减少解码的复杂度。其次是延迟的问题,文本转为音视频并不能达到实时的效果。最后是社会的接受度以及安全的问题。
附上演讲视频:
http://mpvideo.qpic.cn/0b2ekaaamaaa6uaj4bqlsnrfaugdaziaabqa.f10002.mp4?dis_k=0a9effde66813e57309108df09708991&dis_t=1646716405&vid=wxv_2270542358889054217&format_id=10002&support_redirect=0&mmversion=false