作者 | 董灵灵
发布 | ATYUN订阅号
谷歌AI研究人员正在将计算机视觉应用于声波视觉效果,从而在不使用语言模型的情况下实现最先进的语音识别性能。
研究人员表示,SpecAugment方法不需要额外的数据,可以在不适应底层语言模型的情况下使用。
谷歌AI研究人员Daniel S. Park和William Chan表示,“一个意想不到的结果是,即使没有语言模型的帮助,使用SpecAugment器训练的模型也比之前所有的方法表现得更好。虽然我们的网络仍然从添加语言模型中获益,但我们的结果表明了训练网络在没有语言模型帮助下可用于实际目的的可能性。”
SpecAugment部分通过将视觉分析数据增强应用于频谱图,语音的视觉表示来工作。SpecAugment应用于Listen,Attend和Spell网络进行语音识别任务,LibriSpeech960h达到2.6%的单词错误率(WER),它收集了时长约1000小时的英语口语,以及Switchboard300h收集了260小时电话中的英语对话,单词错误率6.8%。
自动语音识别(ASR)系统将语音翻译成文本,用于会话式AI,如家庭智能扬声器中的谷歌智能助手或使用Gboard的电子邮件,或安卓智能手机的短信听写工具。根据普华永道2018年的一项调查显示,降低单词错误率可能是提高会话AI采用率的关键因素。
语言模型和计算能力的进步推动了单词错误率的降低,例如,近年来,使用语音输入比手动输入更快。
End