日均语音请求量10亿次的幕后,百度输入法的技术原点

2020-03-13 10:22:29 浏览数 (1)

能线上解决的就绝不见面,已经成了疫情期间人际交往的头号铁律。

绝大多数沟通都转移到线上,是一种什么体验?

最近百度公布的数据显示,自1月25日春节假期以来,百度输入法日均语音请求量已破10亿次大关,再创行业历史新高。

除了高流量带来的冲击,还需要应对大量新增长尾群体,比如偏远地区人员、中老年人、少年儿童等等,诸多传统场景的线上化,也让使用频率和形形色色的需求开始激增。

毫无疑问,疫情期间的特殊需求驱动着输入法行业迎击新的挑战,也让百度输入法这颗磐石浮出水面。

全民语音输入浪潮,需要怎样的技术进行支撑?AI驱动的输入法又给社会网络生活带来了哪些变化,是一个智能时代背景下,值得思考的关键命题。

数据洪流下的语音输入法,需要一副怎样的钢筋铁骨?

一个输入法而已,技术要求有那么高吗?想得太简单了朋友,全语音交互的输入法,和传统输入法还是有着本质不同。

第一,语音输入想要达到高标准输入的水平,所面对的技术难题要比传统输入法复杂得多。

比如语音输入势必会出现环境噪音,如果算法不够强,很有可能识别不清,还需要用户手动调整,大大降低产品的效率;

再比如,语音输入需要实时转换,又不能过多占用系统算力出现卡顿,这就对软件的智能优化提出了要求。

而百度输入法之所以成为特殊时期人们的沟通首选,也得益于在语音识别上的技术优势。在2019年,百度输入法在线语音识别准确率相对提升15%,超越行业最优竞品15%,才能抗住用户对语音输入的高标准、严要求,再次刷新业界纪录。

第二,访问量的激增也势必会让输入法遭遇各种不同的网络环境。

对于一些偏远地区或受天气原因影响,导致手机网络信号不稳定时,联网状态不佳的输入法就很有可能出现识别成功率低、识别速度慢等情况。

此前,大部分输入法会借助离线语音包来弥补,但在体验上却与在线语音相差悬殊,并不能解决广大用户的痛点。

这次全民触网,百度输入法就以离线语音输入准确率高于行业平均水平35%的优势,确保网络不佳状态下的用户依然能够顺畅使用。

第三,越来越丰富的人口多元化、经济全球化趋势,也让输入法开始应对外语输入、混合输入等难题。

以前如果上海某CBD白领进行办公交流,如果要掺杂一些专有英文词汇,往往需要反复在中英文输入中切换,效率低不说,还经常容易出错。

百度输入法通过技术创新,在完全不影响中文语音输入准确率的情况下,实现了高精准的中英文混合语言识别输入。

在2019年百度AI开发者大会上,百度输入法就当场挑战了零误差识别中英文混合“Rap”——“你的这个新model效果比baseline好多少,探索技术的depth和scope是我们的责任,我很喜欢barrier这个词,AI的value其实就是break barrier。”

在当下的国际化、中英文日渐频繁的互联网交流语境中,百度输入法获得日均10亿次的语音请求量,也就不足为怪了。

第四,如果说中英文识别考验的是技术深度,那么方言识别就考验着输入法厂商的语料库广度与技术布局的前瞻性。

尤其是移动智能开始向更广大用户下沉,越来越多的方言用户也渴望通过语音更高效地交互,但不同于英文的丰富语料,精准识别方言需要前期进行大量的数据收集、标注、清洗、训练、优化等工作,加上中国各地方言数量多,其中还夹杂着各种小众俚语,难度更是指数级上升。

而百度输入法通过技术优化,将普通话和六大方言融合成一个语音识别模型,实现了方言与方言、方言与普通话的混合语音输入,让用户可以免切换就能“方言自由说”,free is not free(自由不是免费的),人情味的背后则是百度输入法技术人员的不懈努力。

当然,在语音技术上完成业界顶级考验,似乎是百度这个“以AI为名”的科技公司的应有之义。

而用户的标准却远远不止如此。我们知道,停课停学让许多95后、00后也以前所未有的参与度加入了网络大军。

他们的要求可不仅仅是“听得懂、听得清、听得快”,还需要炫酷好玩才能占据手机C位。

此时,百度输入法的综合AI实力就开始显效,通过图像识别、AR等技术的引入,让输入法得以拥有AI斗图、神句配图、凌空手写、皮肤主体C位识别等超越语音、文字的特色功能,也成为业内首家可以多场景整句智能预测的输入法产品,成功俘获了众多“Z世代”用户的心。

至此,百度输入法开始让“输入”这个司空见惯的网络冲浪动作,开始向“全感官时代”迈进。

不难看到,作为人与机器交流的直接媒介,百度输入法能够抗住特殊时期的数据洪流与挑剔眼光,依靠的就是支撑起体验质变的“技术长城”。

千锤百炼:百度输入法背后的“技术长城”是如何炼成的?

在明确了百度输入法与技术支持之间密不可分的联系之后,就不难理解其为何能托起日均10亿次语音请求量的庞大需求。

当然,在线访问激增只是诱因,之所以能赢得这场无形战争,核心在于百度输入法已经构筑起了一个固若金汤的技术长城,足以抵御外界洪流。

在此,可以将百度输入法拆解成几个核心构件:

1.自研SMLTA模型的技术底座。

在国际上,我们常常会将百度与中国AI力量代表联系在一起,它的技术能力到底强于何处,足以写一部书来说明。

但支撑起百度输入法与广大用户之间的紧密联系,核心就在于自主研发的流式截断的多层注意力模型——Streaming trancated multi-layer attention(SMLTA)。

是不是每个汉字都认识,但组合起来却不知道是干嘛的?这是去年百度在语音技术上的一项重大创新,在全世界范围内,第一次将基于注意力技术的在线语音识别服务,大规模地应用于输入法产品,服务数亿用户。

截断:改变了原本的整句识别建模,变成了局部一小段语音的注意力模型,比如将中文、英文、方言等截断,在保证主体精度不降低的同时,可以更有效地去识别其他内容;

流式:简单来说就是用户一边说话,算法一边根据上传的语音数据来识别。好处是可以实时调整,减少延迟,从而避免了用户上传识别的较长等待。

多级:传统的注意力模型面对的句子越长,对语音数据的特征选择和匹配难度就越大,出错的概率也会更高。但SMLTA引入了多级注意力机制,让机器对语音特征进行层层递进的选择,让模型的识别率甚至能够超越传统的全局注意力模型。

这也是为什么,流式解码中,机器只能接收部分片段,模型精度也往往会低于整句。但SMLTA就能做到,在边说边识别的前提下保持足够的精准度。

SMLTA模型的另一个创新之处在于,将CTC(一种语音识别算法)和Attention模型集结在一起,借助CTC的端到端训练,来辅助提高注意力模型的精度。让注意力模型在自动寻找每个字的大概范围时,借助CTC来做截断,帮助它更精准地定位。

总的来说,SMLTA模型解决了两个体验难题:一是满足实时率,降低延迟,大幅优化了用户体验;二是提高离线与在线语音识别率,在行业中获得全面领先。

这不仅仅是百度语音的技术制高点,也代表了中文语音识别技术跻身世界顶流的荣耀和贡献;

同时,SMLTA模型在百度输入法产品上大规模上线,服务中国数亿用户,借助云端智能实现了产业端的低成本落地,让实验室技术得以真正赋能每一个人,这也成为百度AI产业化能力的佐证,也让百度输入法一跃成为AI语音技术落地的“领路人”。

2.AI技术的累累砖石。

当然,完整的产品体验也需要完整的技术矩阵来支撑。如果说SMLTA模型“高举高打”,奠定了百度输入法的绝对差异化优势,那么AI技术的全面铺开,就成了百度输入法技术长城所必不可少的一砖一石。

比如,百度输入法就利用深度神经网络对输入文本进行建模,打造出了智能预测功能。

它可以根据用户的使用习惯,在已输入词语的基础上进行长句补全,大大提高了输入效率。在游戏、聊天等场景中,只需要输入开头几个字,比如“为什么”,百度输入法就会根据前后语境自动联想,弹出“为什么不理我”“为什么不打上路”等提示,极大地方便了大家网上对话(对骂)有没有?

目前“智能预测”已经在微信、QQ、淘宝、王者荣耀、绝地求生等场景实现整句预测推荐,还可以根据不同应用与不同场景,提供不同的预测。

再来说说其他AI技术应用。

想要让用户将自己从画面中完整地“抠出来”,做成AR表情,就需要图像分割技术的支持,让机器很好地识别出图片内容,进而叠加上全景动态素材,才能实现将人物置身于虚拟场景的效果。

2019年,百度输入法的“AR表情”功能使用次数就已超过1亿,可见基于AI的创新已经在不知不觉中渗透进了年轻人的社交语境当中。

另外值得一提的是炫酷的凌空手写。

如果说语音输入是引领行业的操作,那么凌空手写可以说是率先感受未来的。

百度通过双神经网络模型——一个基于灰度图的指尖跟踪模型,另一个基于多方向特征文字识别模型,让用户只需要最普通的RGB摄像头,就可以实现手在空中挥舞,输入法就能精准识别出来。

为了保证识别结果的连续和稳定性,百度输入法的研发团队还针对锯齿和连笔在三维空间的手写识别算法进行了大量优化工作,并准备大规模应用。

可以说,百度输入法又一次站在了行业桥头,引领着产业技术迭代的方向。

等待百度输入法补全的产业续曲

通过拆解百度输入法的技术路径,可以更为清晰地看到,在未来的一段时间内,AI托起的技术盛景,将如何更好地推动社会升级。

首先,语音技术在应用端的想象空间被进一步打开。

随着大规模用户习惯的养成,语音输入等AI功能的落地也成为撬动行业格局的下一个赛点。

艾媒咨询《2019中国第三方手机输入法市场年度专题研究报告》数据显示,百度输入法全年月活增速居行业首位,表现最佳。

其次,百度的技术本位,在输入法产品上又一次被成功印证。

输入法作为线上交互的入口,也是最能够真实反映网络状态和现实趋势的窗口。可以看到的是,AI与产品的结合,即将改变千行万业的市场格局。

提升社会生产效率,恢复和持续发展经济,各行各业都离不开智能工具的支持。AI产品服务的用户边界也在快速扩大,这不仅考验着科技产品厂商的技术高度,也要求在产业化落地上交付出成熟的解决方案。

从这个角度看,单日语音请求量破10亿次并不是一个偶然事件,其背后连接的是百度AI技术体系的多年布局、输入法产品的迭代方向、用户需求洞察的敏锐视角,这些要素的迭代,才最终让我们看到了这场技术领域的惊涛拍岸。

手握技术之权杖,才得见峥嵘岁月,无惧风流 。

0 人点赞