基于i.MX RT的语音识别方案

2018-12-24 15:54:07 浏览数 (1)

前言

“AI IoT”将是未来的风口,各种应用和商机将成井喷式增长,国内外各大互联网巨头早已提前布局AI IoT的战略,这同时也是恩智浦的核心战略之一。AI IoT技术的应用,大到汽车和电视,小到灯泡、闹钟,都可以使用AI的控制技术。

今天就给大家介绍一下,恩智浦IoT解决方案团队针对低功耗、低成本的,基于人工智能技术的语音识别,在iMX RT上的软硬件设计和实现。基于该方案能针对智能家居的各种设备提供以下三种应用场景:

  1. 本地离线语音唤醒及语音控制。
  2. 本地唤醒,基于云端语音及语义识别的远程控制。
  3. 本地“Alexa”唤醒,基于云端AWS SDK的语音助手服务。

接下来介绍一下具体的这三种应用场景的逻辑框图和通用的硬件和软件方案。

本地离线语音唤醒及语音控制

如下图所示,这是完全不需要借助网络的本地语音识别模块,可以广泛应用在智能家居的低成本设备如组合灯泡、开关等离线语音唤醒,也可用于白色家电的升级换代,目前许多冰箱,洗衣机,空调等厂商已经表现出浓厚的兴趣。

该方案模块包含了语音的前端降噪、去回声等通用DSP算法,并且包含了WWE (Wake Word Engine)来处理基于AI模型的关键词唤醒的算法预测,在唤醒成功以后再进行多词条控制命令的AI模型预测。整个系统实现非常轻巧,满足低功耗和低成本的要求,非常适合做成通用智能语音模块来加以推广,针对不同的应用和厂商可以定制相应的AI语音模型。真正做到了客户交钥匙模式的方案提供。

为了能有一个更直观的了解,我们提供了相关demo的演示视频:

本地唤醒,基于云端识别的远程控制

如下图所示,在本地基于唤醒词的语音识别,然后通过交互的方式,把后面的语音输入传递到云端作进一步的智能识别。至于后面的语音控制识别,是基于关键字的识别还是更智能化的自然语言语义识别,则取决于后台的第三方AI云服务商,作为终端智能模块,该方案更多的是处理本地AI的语音关键词识别。所以和离线识别的方案实现原理差不多。

本地"Alexa"唤醒 基于云端AWS的语音助手服务

如下图所示,基于恩智浦的低成本语音识别平台,还可以做低成本的智能音箱和智能语音助手,根据产品的定位和硬件的具体配置,可以开发并集成AWS/AVS/AIS等不同等级的SDK支持,也可以完全做中国本地化的语音助手SDK的集成。

下面是一个“Alexa”语音助手的视频:

限于篇幅的限制,大概介绍了一下这三种应用场景,下面快速进入技术流们最关心的软硬件框架设计,以便进一步说明为啥该方案能够做到极低成本,却还能做到如此丰富的AI语音识别应用。

硬件框架结构

如下图所示,该方案的核心就是恩智浦的iMX RT105x跨界处理器,该产品以MCU的价格让客户得到MPU的性能体验,具有极高的性价比。

i.MX RT105x具有足够的计算性能和灵活的存储器配置,可以在不依赖于外接SDRAM时运行整个完整的AI语音模块。BOM成本是选用MPU方案所不能比拟的。由于基于MCU和新的工艺制程,使得整个方案的物理尺寸和功耗也是堪称完美组合,框图下边是开发板(3x4cm)和美元硬币的尺寸比较,可以很直观的看到整个PCBA非常小。

在硬件框图中,主要的部件是MCU、Audio Ampifier、NOR flash,另外Wi-Fi模块和A71CH加密芯片是可选的,还有一些必须的DC regulator和数字麦克风和扬声器。

对于某些应用不需要音频输出,而是接到HOST来做LED和显示更新的场景。可以去掉图中的扬声器和Audio Amplifier,达到更低的BOM成本。

目前的开发板方案可以支持3路麦克风输入,最多可以支持5路麦克风。当然这要根据客户具体的要求来做设计,因为更多的MIC会造成更多的PDM缓存,而导致外扩SDRAM致使成本提高。

软件框架结构

一张架构图胜过千言万语,技术流们一眼就看了个底朝天,没错,既然是MCU的方案,那软件架构也就轻巧简单了许多,你不再需要什么Linux、Android之类的OS,有很多适用于IoT设备的开源OS可以选择。

目前我们提供了完整的基于FreeRTOS的开发包,因为Amazon的整个开发工具链会让我们更容易的调用云端的语音SDK,开发包也包含了一些IoT必备的开发库,比如MQTT、mBedTLS、LWIP等。

另外NXP开发了自己的轻量级Audio Framework,并且包含了最重要的两个IP,一个就是软件的DSP,用于降噪和回声消除,Beamforming等语音处理算法,另外一个就是AI语音算法的预测引擎,用于加载唤醒词和本地语音控制命令库等预训练模型,并识别比对用户语音交互的预测结果。

为了进一步说明基于iMX RT 1052 MCU的智能语音方案的优越性,我们做了一些CPU和运行时内存占用率的测试,该测试基于整个语音唤醒系统在全负载状态时的工作状态,如下表所示:

S/W DSP AI推理引擎

AFE WWE(商用版)

AFE WWE(开源引擎)

最高CPU占用率

56%

33%

最低CPU占用率

10%

30%

RAM占用

340KB

234KB

从上表可以看出,在整个运算负载最重的情况下,CPU的算力还盈余很多,另外对于AI预测运算所需的运行时内存占比也并不高,基于此硬件配置,在成本不升高的情况下,客户完全可以预留部分资源给其他的功能和SDK的开发使用。

结束语

总体来说,基于恩智浦MCU的智能语音识别方案,将会带给客户一个高性价比的选择。在目前市场上基本都是基于MPU的智能语音方案的背景下,这绝对是一个创新型的整体解决方案。

重要的事情说三遍:

低成本!低成本!低成本!

我们也正计划同步推出,基于MPU的高性能算力的语音解决方案,并且带有视频显示甚至是人脸识别的一整套整体解决方案,敬请期待!

0 人点赞