鹅厂最新数字人，体温36.5℃

鱼羊萧箫发自凹非寺量子位报道 | 公众号 QbitAI

今天是国际残疾人日，正巧，也是《国王排名》更新的日子。

这部42岁作者产出的作品，主角波吉正是一名聋哑人，画风不算成熟，却在11月一跃成为现象级作品，热度高到出圈：

故事中的波吉听不见、说不出，但除了师长亲人外，身边愿意为他学习手语的人却少之又少。

看过这部动漫后，不少网友开始意识到，自己身边同样有不少无法通过言语交流的“波吉”们：

跟动画中的波吉一样，现实中的听障人群迫切地想要和这个世界建立联系，读懂他人传递的信息，但，并非每个人都能找到一个像卡克一样愿意随时充当“翻译”的小伙伴。

同样，在现实生活中，中国的14亿人口里有超过2700万残疾性听力障碍人士，专业手语翻译却少之又少。

曾有统计数字显示，在上海约有23万听障人士，能真正胜任工作的手语翻译却不足百人。

而看新闻、刷视频这样的平常小事，在他们的世界里，也充满困难和障碍：

相比于自然语言，手语更像是一门与母语相差甚远的外语。

举个例子，在语序上，两者就存在较大差异。像“开车不喝酒”这句话，手语表达的顺序其实是依次打出“开车”、“喝酒”、“不许”这三个手势。

在这种情况下，世界更多地对他们呈现出一种冰冷的姿态。

所幸，科技的发展，如今正在真实地改变“波吉”们的生活。

例如，有这样一类AI手语主播，Ta们7×24小时无休，让人们感受到了人性的温度。

Ta们不仅能够随时随地提供实时手语翻译，翻译质量也相当可靠——

以上面这位来自腾讯的AI手语主播“小聪”为例，其手语翻译的可懂度能达到80% 。

不过，要想达到这样的水准，AI要做的事情绝非仅仅“翻译”那么简单。

AI手语主播背后的挑战

相对社会大众，听障人群是一个少数群体，这就意味着，想要打造一个手语翻译相关的AI，首先要面对的就是数据匮乏这一先天挑战。

并且由于语言本身词汇量很大，如果要通过把所有词汇都用手语打一遍的方式来采集数据，从技术的角度来看，时间和数据量的压力都会非常大。

而这，还只是第一重挑战。

更大的困难在于，语音转手语，并不是简单地构建一个从语音到视觉的转换模型就行。

正如前文所提到的，手语表达的顺序与自然语言输出的顺序并不一致，在语句文字输出量大、语音播报速度比手语播报快30%-50%的情况下，手语翻译的速度很难跟上人的语速。

此外，表情神态也是手语表达中极为重要的一部分，并不能简单忽略。

这也是为什么，早在2018年，新华社就曾与搜狗合作推出数字人主播，却直到今年5月，全球首个手语数字人（同样出自搜狗）才正式登台亮相。

所以，程序员们具体是如何攻克难题的？

以前面提到的AI手语主播“小聪”为例，这一腾讯云小微的产品首先是利用数据标注、数据增强技术，在不需要采集所有手语动作的前提下，扩展词汇量储备。

其次，是在翻译的过程中，先通过语义理解技术进行文本摘要，再在保障事实正确率的前提下进行手语翻译及合成，在解决词汇量问题的同时，缩短表达时长。

而小聪诞生的过程中，腾讯云小微也邀请了手语专家、使用手语的听障人士协助测评，以最终让小聪打出“听障人士看得懂的手语”。

这里怎么理解呢，举个例子，市面上的手语数字人打手语的速度往往符合健全人的视觉习惯，而在听障人士看来，就太慢了。

在此之外，AI手语主播还需要更像“人”，比如表情神态、动作的流畅度，以及理解输出的“业务能力”等等方面。这一点不仅适用于AI手语主播，其他数字人产品也是如此。为了重新定义产品及背后的技术要求，腾讯的技术工作者们发布了全新的、智能化的数字人产品——

腾讯云小微数智人。

AI手语主播如何成为数“智”人？

事实上，任何虚拟的人物形象都可以被称作数字人，但数智人产品的技术要求则要严格不少。

对于数智人产品，腾讯云小微给出了这样的技术描述：

新一代多模态人机交互系统。

所谓多模态交互，简单来说就是能听、能看、能说、能思考。

这表明数智人的“智”，不仅仅指知识储备量，更表示它们能真正像人一样，结合视觉、听觉等多种感官理解外界信息，并及时做出反馈。

从实现方式看，数字人要想成为一名数“智”人，至少要有5个方向上的技术储备：

这意味着，如果一名虚拟数字人被称作“数智人”，那它除了需要贴合应用场景，还需要解决以下两个问题。

其一，数字人在表达时，往往会出现肢体动作僵硬不自然的问题。

现在，形象和外观早已不是数字人最大的难点，通过动捕、渲染等技术，可以轻易将数字人的形象做得非常逼真。

但在进行语音交流的时候，数字人却极容易出现肢体僵硬不自然的问题。

人类在说话的时候，手部和身体会有轻微的随机动作，伴随情绪语气和用词发生变化。

为了模拟这些动作，不少数字人选择设置一套随机肢体动作的程序，让数字人在说话的时候，按程序固定做出一些动作。

然而，由于这套程序与用词、语气和情绪并不挂钩，往往会显得肢体非常僵硬，甚至出现“讲述伤感故事时开怀大笑”的场景。

此前，国外某公司曾推出过一款数字人，虽然脸部已经非常逼真，但肢体动作却非常僵直，交流时不免溢出一丝诡异感：

针对这个问题，腾讯云小微的解决方案是引入语义驱动技术，即根据数智人说话的语义，去匹配对应的动作和字词。

需要说明的是，这样的语义驱动并非是靠1对1的动作-文字匹配实现——这种方案会使得数字人的运营配置成本过高，而是利用NLP技术对语句进行语义理解，确保数智人所有的肢体动作都是在理解对话的基础上进行的。

例如，云小微数智人不止会根据文字的语气做出沮丧、高兴或生气等8种细节表情（精细到眉毛那种），还能自行归类各种近义词句，做到说话时从表情到肢体动作都接近真人。

其二，是语音交互沟通中语句理解的问题。

尽管除了语音外，数智人的交互也包括触摸、图形、文字等交互方式，但在人类日常沟通中，语音仍然是最自然的方式，在人机沟通中更是如此。

同时，语音交互又是人机交互中最复杂的技术之一，目前人类和AI在日常沟通上仍然存在不少障碍。

其中一个非常大的问题，就是AI无法理解我们说的是什么，包括口语化表达、口音、说话习惯等等因素都会对AI理解语句带来很大挑战。

面对这种问题，腾讯实现了非常全面的AI技术储备。

在NLP技术上，腾讯云小微在国际对话系统技术挑战赛（DSTC8）中，一连斩获4项世界第一，无论是数据、模型还是场景，都处于行业领先的地位。

其中，在数据上，云小微支持自动学习、自动化扩展百万级语料；模型也非常全面，从任务、闲聊到问答型都有，也支持在线&离线融合语义理解；最重要的是，云小微由于有全双工、多轮对话能力相关的技术加成，能够很好地完成复杂场景的对话任务。

而在NLP以外，腾讯在语音合成上也有AI LAB自研的DurIAN等语音合成框架。

据负责人介绍，在语音合成方面，腾讯云小微不仅支持少样本声音复刻、达到“20句就能生成极具个性化的语音声线”的效果，而且合成效果拟声度高、同时支持11种语言和方言。

这样一来，数智人不仅解决了语音上“理解”的问题，也解决了个性化“表达”的问题，应用在手语主播这样的场景中，才能更好地向听障群体放出善意与温暖。

科技的增量价值

当数智人们变得越来越智能，不止是当主持人、当手语AI主播，「向善」的科技同样也能应用在更广更多的领域中，越来越多的职业岗位上都开始出现Ta们的身影，比如导游、客服、虚拟偶像等等。

例如，在传媒领域，数智人就能在新闻主播忙不过来的时候，成为一个“虚拟分身”，为他们进行一个高并发的信息输出。

这样一来，不仅能解决新闻量高并发的问题，还能解决新闻主播受到时差、语言等方面限制的问题，实现7x24小时在线。

又例如，今年由于疫情原因，不少银行等金融机构开始开启线上业务办理，然而员工们却无法到线下的网点上班，导致客户同样也无法办理业务。

在这种情况下，数智人就能帮助金融机构，通过语音交互完成一个无接触面对面的业务办理，同时结合视觉、大数据等技术，实现金融风险评估等更加复杂的操作。

但值得一提的是，正如同手语数智人的出现，让所有电视节目都配上手语老师成为可能，在这些场景中，数智人也并非在“替代”人类工作，而更多地是填补空白，起到“增量”的效果。

在那些人力短缺，或仅凭人力难以兼顾的场景中，数智人作为一种提升服务效率的方式，不仅能够避免重复性劳作带来的效率降低，也能保持长期工作中的服务体验感。

这也是科技背后真正的价值——并非取而代之，而是协助人、去做人所不能之事。

从这个角度来看，数智人仿佛也拥有了人类一般36.5℃的体温，不再只是一个冰冷的数字形象。

事实上，也只有真正有温度的科技、无障碍的科技，才能够在时间的检验下保持长久的生命力。

近年来，像腾讯这样的科技公司其实一直在进行无障碍设施的落地，践行上述理念。

而现在，历经数年技术积累，从实验室走向台前的AI手语数智人们，也正是“科技有温度”的最新体现。

并且，科技越发展，形态越进化，弱势群体和世界之间的裂隙，也越来越能够为技术所抚平——

相比翻译机，AI手语数智人更进一步地解决了双向沟通的问题，不仅让听障人士理解想要表达的信息，也让更多人走进听障人士们的内心世界。

愿科技的发展，能让每一个人都感受到被重视的“温度”。

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载

腾讯云小微语音合成 NLP服务

0 人点赞

鹅厂最新数字人，体温36.5℃

鱼羊 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI

AI手语主播背后的挑战

AI手语主播如何成为数“智”人？

科技的增量价值

鱼羊萧箫发自凹非寺量子位报道 | 公众号 QbitAI