鱼羊 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI
今天是国际残疾人日,正巧,也是《国王排名》更新的日子。
这部42岁作者产出的作品,主角波吉正是一名聋哑人,画风不算成熟,却在11月一跃成为现象级作品,热度高到出圈:
故事中的波吉听不见、说不出,但除了师长亲人外,身边愿意为他学习手语的人却少之又少。
看过这部动漫后,不少网友开始意识到,自己身边同样有不少无法通过言语交流的“波吉”们:
跟动画中的波吉一样,现实中的听障人群迫切地想要和这个世界建立联系,读懂他人传递的信息,但,并非每个人都能找到一个像卡克一样愿意随时充当“翻译”的小伙伴。
同样,在现实生活中,中国的14亿人口里有超过2700万残疾性听力障碍人士,专业手语翻译却少之又少。
曾有统计数字显示,在上海约有23万听障人士,能真正胜任工作的手语翻译却不足百人。
而看新闻、刷视频这样的平常小事,在他们的世界里,也充满困难和障碍:
相比于自然语言,手语更像是一门与母语相差甚远的外语。
举个例子,在语序上,两者就存在较大差异。像“开车不喝酒”这句话,手语表达的顺序其实是依次打出“开车”、“喝酒”、“不许”这三个手势。
在这种情况下,世界更多地对他们呈现出一种冰冷的姿态。
所幸,科技的发展,如今正在真实地改变“波吉”们的生活。
例如,有这样一类AI手语主播,Ta们7×24小时无休,让人们感受到了人性的温度。
Ta们不仅能够随时随地提供实时手语翻译,翻译质量也相当可靠——
以上面这位来自腾讯的AI手语主播“小聪”为例,其手语翻译的可懂度能达到80% 。
不过,要想达到这样的水准,AI要做的事情绝非仅仅“翻译”那么简单。
AI手语主播背后的挑战
相对社会大众,听障人群是一个少数群体,这就意味着,想要打造一个手语翻译相关的AI,首先要面对的就是数据匮乏这一先天挑战。
并且由于语言本身词汇量很大,如果要通过把所有词汇都用手语打一遍的方式来采集数据,从技术的角度来看,时间和数据量的压力都会非常大。
而这,还只是第一重挑战。
更大的困难在于,语音转手语,并不是简单地构建一个从语音到视觉的转换模型就行。
正如前文所提到的,手语表达的顺序与自然语言输出的顺序并不一致,在语句文字输出量大、语音播报速度比手语播报快30%-50%的情况下,手语翻译的速度很难跟上人的语速。
此外,表情神态也是手语表达中极为重要的一部分,并不能简单忽略。
这也是为什么,早在2018年,新华社就曾与搜狗合作推出数字人主播,却直到今年5月,全球首个手语数字人(同样出自搜狗)才正式登台亮相。
所以,程序员们具体是如何攻克难题的?
以前面提到的AI手语主播“小聪”为例,这一腾讯云小微的产品首先是利用数据标注、数据增强技术,在不需要采集所有手语动作的前提下,扩展词汇量储备。
其次,是在翻译的过程中,先通过语义理解技术进行文本摘要,再在保障事实正确率的前提下进行手语翻译及合成,在解决词汇量问题的同时,缩短表达时长。
而小聪诞生的过程中,腾讯云小微也邀请了手语专家、使用手语的听障人士协助测评,以最终让小聪打出“听障人士看得懂的手语”。
这里怎么理解呢,举个例子,市面上的手语数字人打手语的速度往往符合健全人的视觉习惯,而在听障人士看来,就太慢了。
在此之外,AI手语主播还需要更像“人”,比如表情神态、动作的流畅度,以及理解输出的“业务能力”等等方面。这一点不仅适用于AI手语主播,其他数字人产品也是如此。为了重新定义产品及背后的技术要求,腾讯的技术工作者们发布了全新的、智能化的数字人产品——
腾讯云小微数智人。
AI手语主播如何成为数“智”人?
事实上,任何虚拟的人物形象都可以被称作数字人,但数智人产品的技术要求则要严格不少。
对于数智人产品,腾讯云小微给出了这样的技术描述:
新一代多模态人机交互系统。
所谓多模态交互,简单来说就是能听、能看、能说、能思考。
这表明数智人的“智”,不仅仅指知识储备量,更表示它们能真正像人一样,结合视觉、听觉等多种感官理解外界信息,并及时做出反馈。
从实现方式看,数字人要想成为一名数“智”人,至少要有5个方向上的技术储备:
这意味着,如果一名虚拟数字人被称作“数智人”,那它除了需要贴合应用场景,还需要解决以下两个问题。
其一,数字人在表达时,往往会出现肢体动作僵硬不自然的问题。
现在,形象和外观早已不是数字人最大的难点,通过动捕、渲染等技术,可以轻易将数字人的形象做得非常逼真。
但在进行语音交流的时候,数字人却极容易出现肢体僵硬不自然的问题。
人类在说话的时候,手部和身体会有轻微的随机动作,伴随情绪语气和用词发生变化。
为了模拟这些动作,不少数字人选择设置一套随机肢体动作的程序,让数字人在说话的时候,按程序固定做出一些动作。
然而,由于这套程序与用词、语气和情绪并不挂钩,往往会显得肢体非常僵硬,甚至出现“讲述伤感故事时开怀大笑”的场景。
此前,国外某公司曾推出过一款数字人,虽然脸部已经非常逼真,但肢体动作却非常僵直,交流时不免溢出一丝诡异感:
针对这个问题,腾讯云小微的解决方案是引入语义驱动技术,即根据数智人说话的语义,去匹配对应的动作和字词。
需要说明的是,这样的语义驱动并非是靠1对1的动作-文字匹配实现——这种方案会使得数字人的运营配置成本过高,而是利用NLP技术对语句进行语义理解,确保数智人所有的肢体动作都是在理解对话的基础上进行的。
例如,云小微数智人不止会根据文字的语气做出沮丧、高兴或生气等8种细节表情(精细到眉毛那种),还能自行归类各种近义词句,做到说话时从表情到肢体动作都接近真人。
其二,是语音交互沟通中语句理解的问题。
尽管除了语音外,数智人的交互也包括触摸、图形、文字等交互方式,但在人类日常沟通中,语音仍然是最自然的方式,在人机沟通中更是如此。
同时,语音交互又是人机交互中最复杂的技术之一,目前人类和AI在日常沟通上仍然存在不少障碍。
其中一个非常大的问题,就是AI无法理解我们说的是什么,包括口语化表达、口音、说话习惯等等因素都会对AI理解语句带来很大挑战。
面对这种问题,腾讯实现了非常全面的AI技术储备。
在NLP技术上,腾讯云小微在国际对话系统技术挑战赛(DSTC8)中,一连斩获4项世界第一,无论是数据、模型还是场景,都处于行业领先的地位。
其中,在数据上,云小微支持自动学习、自动化扩展百万级语料;模型也非常全面,从任务、闲聊到问答型都有,也支持在线&离线融合语义理解;最重要的是,云小微由于有全双工、多轮对话能力相关的技术加成,能够很好地完成复杂场景的对话任务。
而在NLP以外,腾讯在语音合成上也有AI LAB自研的DurIAN等语音合成框架。
据负责人介绍,在语音合成方面,腾讯云小微不仅支持少样本声音复刻、达到“20句就能生成极具个性化的语音声线”的效果,而且合成效果拟声度高、同时支持11种语言和方言。
这样一来,数智人不仅解决了语音上“理解”的问题,也解决了个性化“表达”的问题,应用在手语主播这样的场景中,才能更好地向听障群体放出善意与温暖。
科技的增量价值
当数智人们变得越来越智能,不止是当主持人、当手语AI主播,「向善」的科技同样也能应用在更广更多的领域中,越来越多的职业岗位上都开始出现Ta们的身影,比如导游、客服、虚拟偶像等等。
例如,在传媒领域,数智人就能在新闻主播忙不过来的时候,成为一个“虚拟分身”,为他们进行一个高并发的信息输出。
这样一来,不仅能解决新闻量高并发的问题,还能解决新闻主播受到时差、语言等方面限制的问题,实现7x24小时在线。
又例如,今年由于疫情原因,不少银行等金融机构开始开启线上业务办理,然而员工们却无法到线下的网点上班,导致客户同样也无法办理业务。
在这种情况下,数智人就能帮助金融机构,通过语音交互完成一个无接触面对面的业务办理,同时结合视觉、大数据等技术,实现金融风险评估等更加复杂的操作。
但值得一提的是,正如同手语数智人的出现,让所有电视节目都配上手语老师成为可能,在这些场景中,数智人也并非在“替代”人类工作,而更多地是填补空白,起到“增量”的效果。
在那些人力短缺,或仅凭人力难以兼顾的场景中,数智人作为一种提升服务效率的方式,不仅能够避免重复性劳作带来的效率降低,也能保持长期工作中的服务体验感。
这也是科技背后真正的价值——并非取而代之,而是协助人、去做人所不能之事。
从这个角度来看,数智人仿佛也拥有了人类一般36.5℃的体温,不再只是一个冰冷的数字形象。
事实上,也只有真正有温度的科技、无障碍的科技,才能够在时间的检验下保持长久的生命力。
近年来,像腾讯这样的科技公司其实一直在进行无障碍设施的落地,践行上述理念。
而现在,历经数年技术积累,从实验室走向台前的AI手语数智人们,也正是“科技有温度”的最新体现。
并且,科技越发展,形态越进化,弱势群体和世界之间的裂隙,也越来越能够为技术所抚平——
相比翻译机,AI手语数智人更进一步地解决了双向沟通的问题,不仅让听障人士理解想要表达的信息,也让更多人走进听障人士们的内心世界。
愿科技的发展,能让每一个人都感受到被重视的“温度”。
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载