中国队夺金幕后的「AI手语翻译官」:初次上岗,手语可懂度超90%

2022-03-04 12:12:57 浏览数 (2)

关注并星标

从此不迷路

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

——转自《机器之心》

作者:蛋酱

有了腾讯 3D 手语数智人主播「聆语」的精彩解说,即使是身处「无声世界」的群体也能实时感受冰雪赛事的每一份激情。

「聆语」解说短道速滑男子 1000 米决赛,任子威夺金。

自由式滑雪女子大跳台决赛,中国选手谷爱凌夺得金牌。

我们为什么需要 AI 手语数智人主播?

打造 3D 手语数智人「聆语」有何挑战?

输入:他是我的手语老师预处理:他 是 我 的 手语 老师翻译:他 我 手语 老师 是

随后,「聆语」基于腾讯多模态端到端生成模型,进行联合建模及预测生成高准确率的动作、表情、唇动等序列,实现自然专业、易懂度高的手语效果。得益于腾讯云小微和PCG AI 在语音技术领域的长期积累,「聆语」的 AI 手语可懂度达到了90%以上。

赛场手语翻译的难点,包括要通过 ASR 技术,将比赛解说的语音从赛场现场的复杂环境声音中分离出来进行精准的识别,然后再将识别出来的文本信息进行智能摘要,使手语翻译能够和主持人语速达到匹配。接下来,将手语翻译生成手语视频,保证每个动作准确的同时,也要实现动作与动作之间的精准衔接。

在信息准确率方面,「聆语」还可以快速学习时下的新词热词,快速完成各种行业、业务场景和相关知识的学习,提升翻译准确性。

比如 17 岁小将苏翊鸣被称为「小栓子」,再比如谷爱凌,需要「首字母 唇形」才能定义成特殊的词。借助腾讯的大数据技术能力,「聆语」能够做到快速及时地掌握热词,并进行手语词汇补充。

此外,「聆语」更贴合业务,产品落地能力更强。腾讯团队综合运用 3D 数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项 AI 技术,加深其感知理解,「聆语」支持业务场景更加丰富,业务数据积累量也更大。

AI 手语合成主播未来可期

随着 AI 交互智能的技术发展和应用落地,数智人已经成为很多行业的数字员工,辅助人类提供更加高效、精准的服务。

在新闻传媒领域,在 2021 年 10 月,广电总局在《广播电视和网络视听「十四五」科技发展规划》中也首次明确指出,要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。

一直以来,腾讯云小微始终致力于推动 AI 交互智能领域的技术发展和产业应用落地。此前,腾讯云小微联合 PCG AI 及 AI Lab 等技术力量,打造了多个数智人方案,为大众提供客服、导览、讲解等多样化服务,涉及金融、传媒政务、家居、教育、展会、交通等众多领域。

未来,来自腾讯技术团队的「聆语」还将在更多场景提供服务,帮助听障人士和正常人一样了解、交流新闻时事,助力实现更好的无障碍信息传播环境。

© THE END 

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

0 人点赞