人工智能用于各种语音识别和理解活动,从启用智能扬声器到为失聪或有语言障碍的人设计辅助工具。然而这些语音理解算法经常在最需要它们的日常场景中表现不佳:当很多人同时说话或有很多背景噪音时。即使是先进的降噪技术也常常无法有效应对海滩旅行中的海浪声或嘈杂的街头市场背景的喧闹声。
在这些情况下,人类比人工智能更好地解释语音,因为同时使用耳朵和视力。例如可以观察某人的嘴巴移动,并直观地知道听到的声音来自她。这就是为什么 Meta AI 正在开发新的对话式人工智能系统,可以辨别他们在对话中看到的内容和听到的内容之间错综复杂的关系。
视听隐藏单元 BERT (AV-Hubert) 是一种尖端的自我监督框架,用于理解语音,通过看到和听到人们的谈话来学习,以开发更多样化和更强大的语音识别技术。它是第一个从未标记数据(未转录视频)同时预测语音和嘴唇运动的系统。在使用相同数量的转录(同时使用说话者的声音和图像来理解人在说什么)时,AV-Hubert 的准确率比顶级视听语音识别系统高 75%。
值得注意的是,这项技术解决了教 AI 完成有价值任务的一个重大障碍:当只有十分之一的数据被标记时,AV-Hubert 就击败了之前最好的视听语音识别系统。由于大多数语言的大量标记数据难以收集,AV-Hubert 的自我监督技术将在更多语言和应用程序中创建抗噪声自动语音识别 (ASR) 系统。
AV-Hubert 将通过结合可见嘴唇运动和口语的数据,使语音助手更接近人类水平的语音理解。有朝一日,这种技术可能会让智能手机和增强现实 (AR) 眼镜助手能够理解在说什么,无论是在嘈杂的制造车间、音乐会还是只是在喷气式飞机飞过时交谈。
开发语音识别的多模式方法
因为今天的语音识别模型只接收音频作为输入,所以它们必须估计是一个或多个人在说话,或者声音是否只是背景噪音。另一方面,AV-Hubert 以与人们相同的方式学习——多模式——通过混合听觉和嘴唇运动信号来接收和获取语言。该模型使用来自公开可用的 LRS3 和 VoxCeleb 数据集的视频记录进行训练。
AV-Hubert 通过混合视觉信号(例如说话时嘴唇和牙齿的移动)与听觉信息表示学习,可以有效地捕捉两个输入流之间的细微相关性,即使用于预训练的未转录视频数据量显着减少。一旦预训练模型掌握了结构和相关性,只需要最少量的标记数据来训练所有新特征。
下面的动画演示了 AV-Hubert 方法。为了预测离散集群分配的计划序列,它使用混合 ResNet-Transformer 架构将屏蔽的音频和图片序列转换为视听特征。AV-Hubert 的目标聚类分配最初是从基于信号处理的声学特征(例如 Mel 频率倒谱系数 MFCC)生成的,然后使用视听编码器通过 k-means 聚类学习的特征进行迭代细化。
在对 430 多个小时的标记数据进行训练时,当语音和背景噪声都同样响亮时,先前最先进的 AV-ASR 实现了 25.5% 的错误率。AV-Hubert 在相同数量的标记数据下产生 3.2% 的错误率,这意味着它每听到 30 个单词中只有一个错误。当干扰与目标语音一样响亮时,纯音频语音识别模型无法确定要转录哪个说话者。另一方面,这个视听模型学会了只转录它观察到的人的讲话。在这种情况下,AV-Hubert 产生了 2.9% 的 WER,但没有预训练的纯音频模型只有 37.3% 的 WER。
在对 31,000 小时的转录视频数据进行训练后,当系统可以看到但听不到说话者的声音时,之前最先进的模型可以在标准 LRS3 基准数据集上实现 33.6% 的 WER。这种方法优于有监督的最先进技术,只需 30 小时的标记数据即可实现 28.6% 的 WER。此外利用 433 小时的标记数据,达到了 26.9% 的最新 WER。
接下来是什么?
AV-Hubert 将做的不仅仅是创建可以在困难情况下部署的对话式 AI 系统。因为它需要的训练数据要少得多,所以它还将允许为全球不会说英语、普通话或西班牙语等语言的人开发对话式 AI 模型。
因为 AV-Hubert 从语音和嘴唇运动中学习,它可能有助于研究人员为有语言障碍的人开发更具包容性的语音识别模型。自我监督的视听表示也可用于检测深度伪造和其他信息,这些信息已被修改以通过捕捉声音和嘴唇运动之间的良好相关性来欺骗用户。它还可能有助于在虚拟现实化身中产生逼真的嘴唇运动,从而实现真正的存在感——即使他们在地球的另一端,也能与某人在一起的感觉。
论文 1:
https://arxiv.org/abs/2201.01763?
论文 2:
https://arxiv.org/abs/2201.02184?
Github:
https://facebookresearch.github.io/av_hubert/
参考:
https://ai.facebook.com/blog/ai-that-understands-speech-by-looking-as-well-as-hearing