12月15日,由腾讯云主办的首届“腾讯腾讯云开发者社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题,汇聚了超40位技术专家,共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果,吸引超过1000名开发者的参与。以下是大数据AI分会场的演讲内容,稍作整理,分享给大家。
语音和语义识别在当今人工智能领域中占据重要地位,微信智聆致力于语音技术的研究和落地,提供的AI 语音识别技术,能够实现现场同传、语音实时转文字等多种功能。本次演讲将会从微信智聆语音技术发展入手,从技术角度分析其在移动产品线产品以及多种解决方案中的应用原理。
随着机器学习与大数据技术的发展,我们语音和语义识别在生活中占据大部分的地位,那么。语音语义识别在后面发展中有什么趋势呢?
语音识别,我们从技术上看,分了几个模块,开始是特征提取,然后是声学模型,字典和语言模型,最后是解码技术。特征提取是把语音信号变成适合语音识别的特征,把连续的语音信号变成一个离散的信号序列。声学模型的目的是把声音特征映射成连续的一些音素的序列。字典是通过查表的方式,把音素序列变成某一个词,然后再通过语言模型中多个词前后的搭配关系,把词序列变成完整的一句话。语音识别技术就是围绕这几个环节来的。
语音识别技术简史
技术发展基本上经历了几个阶段。
2009年之前的语音识别技术,我们这里姑且称它为传统语音识别系统,这时候特征是用MFCC和PLP。这个阶段HMM-GMM是主流的声学模型建模方式,HMM负责时序关系,GMM负责每一帧的分类。
2009年之后,DNN被成功的引入语音识别领域,这带来了系统性能的极大提高,此后CNN,LSTM等技术陆续被引入,声学模型和语言模型都可以使用深度学习技术来建模。
2014年左右,CTC技术摆脱了对于HMM的依赖,可以直接利用网络本身的记忆能力来序列建模。
再往后就是端到端的技术,在图像和机器翻译也用了很多。比如说第一个是CTC,直接将输入和输出关联起来,不需要区分声学模型和语言模型性。第二个是Encoder-decoder加上Attention机制,这也是源于机器翻译。
微信智聆语音平台
后面我们讲一下微信智聆语音的技术积累。
我们成立于2011年,现在有7年,团队规模30人,主要做的方向是语音识别、语音合成、声纹识别,语音评测等领域的研究和相关的应用。服务对象主要是To C的app,还有一些To B的业务。
具体讲一下,第一块是前端信号处理。首先是VAD技术,判断当前信号是否是有效的语音。但是语音信号并没有这么简单,里面会包含有一些笑声或者音乐等,这些片段,并不是语音识别所关注的,这里我们引入了音频事件分类技术,在信号中选取有效的语音部分。语音信号里面,还有很多背景噪声,比如背景人声、机场广播的声音,这时候我们需要一些降噪技术,来减小这些干扰。再往后很多人说话的场景,往往需要把不同的人区分开,说话人分割技术就是为了解决这个问题,提取出来想要的那个说话人的语音文本。
第二块是我们现在语音识别技术上的一些基础能力。首先是数据,我们在积累和收集数据的同时,也会通过一些数据合成方式来丰富数据的多样性。然后是,我们拥有大规模的GPU集群,在上面可实现多机多卡的并行训练和解码,可以满足各种各样深度学习模型的训练。在声学建模层面,我们可以根据不同的任务场景,选择合适的建模技术。在语言建模层面,我们拥有在线LM重估、RNN LM、时效更新、反馈纠错等技术。
我们近场语音识别,大概的性能,在输入场景下,识别率平均是97%。长语音的转写平均性能是90%左右。在地铁和公交等一些噪声场景下,识别率在87-88%左右。
后面简要介绍一下我们在用的一些比较独特的建模方式。第一个是多目标的中英混合建模方式,提高混合说场景下的识别率。第二个是自定义语言模型的技术,可以快速提高垂直领域的专有词汇等的识别率。
微信智聆云端案例
讲一下我们的应用案例。首先是手机上APP的近场应用,这块落地50余款app,每天有4亿请求。第二个是电话客户需求,我们有交通、金融、教育、保险等垂直场景的解决方案。目前云端接入量是每天3万小时,同时我们也提供私有化部署。
腾讯同传是为了满足国际会议现场双语字幕上屏,或者提供会议纪要,今年服务了100多场会议,包括博鳌亚洲论坛,世界人工智能大会,中国首届进口博览会等国际顶级会议。
另外一个应用场景是公检法,这里我们提供说话人角色判别,麦克风阵列等技术,主要是用在法庭审讯和公安问询。
最后是腾讯云小微,给智能硬件提供语音交互的能力,目前主要应用于音箱、汽车、机器人、电视等。
总结
我的分享就到这里,谢谢大家!