滑铁卢大学与DarwinAI开发离线语音模型，准确率可达97%

编译：chux

出品：ATYUN订阅号

通常，语音识别的深度学习方法依靠强大的远程服务器进行大量处理。但是，滑铁卢大学和创业公司DarwinAI的研究人员声称已经开创了一种设计语音识别网络的策略，该策略不仅能够达到最先进的精度，而且能够生成足够强大的模型，以便在低端智能手机上运行。

他们发表的论文“EdgeSpeechNets: Highly Efficient Deep Neural Networks for Speech Recognition on the Edge”中描述了他们的方法。它建立在亚马逊的Alexa机器学习团队的基础之上，该团队在今年早些时候开发了可在本地执行的导航，温度控制和音乐播放算法；高通公司在5月声称已经创建了95％准确的设备上语音识别模型；爱尔兰都柏林创业公司Voysis于9月宣布推出用于移动设备的离线WaveNet语音模型。

“在这项研究中，我们探索了一种人机协同设计策略，用于通过人为驱动的原理网络设计原型和机器驱动设计探索的结合，构建用于语音识别的低占用空间深度神经网络架构，”研究人员写道，“通过设计一系列高效的深度神经网络（被称为EdgeSpeechNets）来进行有限的词汇识别，证明了这种设计策略的有效性。”

该团队首先构建了一个原型，该原型执行有限词汇量的语音识别或关键词识别，能够从语音流中快速识别特定关键词。然后，他们决定采用一种设计方法，将音频信号转换为称为梅尔频率倒谱系数的数学表示，利用深度残差学习来获得比传统技术更强大的表现能力。

接下来，他们开始进行生成综合，这是一种机器驱动的设计策略，可以构建深度神经网络，并强调性能。在这种情况下，研究人员使用了一种配置，确保语音模型的验证准确度至少达到95％。

为了评估生产的EdgeSpeechNets的性能，该团队使用了Google Speech Commands数据集，这是一个包含65000个一秒钟30个短字样本和背景噪声样本的数据集。

其中一个型号EdgeSpeechNet-A与最先进的语音识别模型（res15）相比，精度提高了1％，同时要求的处理能力显著降低。此外，它的测试精度达到了97％，优于之前公布的结果。

另一款型号EdgeSpeechNet-D ，搭载摩托罗拉Moto E手机的1.4GHz Cortex-A53处理器，预测延迟为34毫秒，内存占用小于1MB，延迟减少10倍，内存占用比上述减少16.5％最先进的神经网络。

另一个模型EdgeSpeechNet-C，其中最小的一个，比最先进的设备具有更高的精度，减少了7.8个参数（用于控制训练过程的某些属性的函数参数）和10.7个乘法加法运算。

研究人员写道：“EdgeSpeechNets在更小的尺寸上具有更高的精度，而且计算成本低于最先进的深度神经网络。这些结果表明，EdgeSpeechNets能够实现最先进的性能，同时仍然明显更小，并且需要的计算量更少，因此非常适合于设备边缘语音接口应用。”

在未来的工作中，他们计划将人机协同深度神经网络设计策略应用于视觉感知和自然语言处理等领域。

论文：arxiv.org/pdf/1810.08559.pdf

语音识别

0 人点赞