,r以下内容来自于Aspinity CEO Tom Doyle发表在Embedded的文章。原文链接 -
https://www.embedded.com/smarter-voice-data-processing-yields-better-battery-life/
Always-listening设备给我们的生活带来极大的便利性,如播放音乐,查询天气,打开电视,甚或是实时监听各种环境声如犬吠,玻璃破碎声的家庭安防设备,以及其他IoT Home智能设备。
面世于2014年的语音助理服务(voice assistant),始于Amazon首次推出的智能音箱, Amazon Echo。如今包括智能音箱在内的语音智能设备装机量早已超过数亿台,预计2023年支持always-on的语音设备总装机量将超过10亿台。
MEMS MIC可以捕捉环境音并将其数据化(environmental sound data),并将数据发送到云端处理,分析并识别唤醒词或者是其他语音命令。
随着消费者越来越多的采购语音助理设备,以及其他的always-on IoT设备的发展,其产生了越来越多的数据,据Intenational Data Corp的分析,到2025年,约416亿台IOT设备将会产生79.4 zettabytes的数据,这是我们并没有预料到和并不想看到的后果(consequences),不但消耗了大量的带宽,同时也带来了高成本和低能效(power inefficiencies)等负面影响。
这也驱动着整个半导体行业(semiconductor industry)试图找到新的技术路线,将强大的云端计算能力带到边缘侧,我们也称之为边缘处理或边缘计算(edge processing)。
边缘计算的快速发展首先得益于低功耗数字信号处理器(DSP)和微控制器(MCU)的快速发展(proliferation),其中很多也支持嵌入式的神经网络技术(embedded neural network),比如支持TinyML的芯片。
这些数字处理芯片(digital processing chips)可以处理复杂的数据分析(complex data analysis),比如确定是否识别到唤醒词等。但这些设备并不如人脑般智能,通常需要将拾取的所有模拟音频信号转换成数字形态(immediate conversion of all sounds),甚至包括很多包含唤醒词的的环境音,如各种噪音和其他音频信号,会浪费掉太多的功耗,同时带来与消费者满意度的冲突(collision course with consumer dissatisfaction)。
消费者期待的是便携式和穿戴式产品,拥有不损失待机下的媲美云端处理能力和相应精度,如果原有的架构不发生变化(legacy architecture),这会将OEM厂商置于一个相当尴尬的境地,80%到90%的电池能量消耗在了处理毫无意义的数据上(process meaningless data)。
由于在系统内传输数据需要消耗电池能量,最高效的节能方式是要尽可能少的减少无用数据的传输。
我们需要一个新的范式(paradigm),一个模拟人脑的范式(mimic human brain),通过在前端判定相关性(spend a little of power up-front go determine what is relevant),仅将有意义的(meaningful)数据传输至下一阶段处理,从而在处理海量外部数据的时候,可以消耗尽可能少的能量。
以上新的技术范式,需要我们拥抱一项看起来老式而又人望而生畏(old-fashioned and intimidating)的技术-模拟技术。处理原始的,来自真实世界的(ream world),非结构化的模拟信号(raw, unstructured analog signals),如触控,视觉,听觉,震动等信号是非常困难(tough)的。
数字信号处理经过几十年的快速发展,目前看起来遇到了物理定律(the wall in the laws of physics)的障碍。技术专家(technologists)带来了两项根本性的技术变革(fundamental changes):
数字芯片仅在必要时进行重处理
利用模拟电路固有的(inherent)的低功耗特性,与机器学习相结合(combined with machine learning),在声音信号仍是自然模拟状态的时候(natural analog state)进行第一阶的分析,判断是否有语音型号。数字信号处理器保持低功耗休眠状态,仅在第一阶段分析结束后,必要时唤醒识别唤醒词。
以下示意图展示了如何通过创新的芯片设计,让芯片具有类似人脑处理模拟信号的功能,分层次和分阶段的(progressively analyzing sound in layers)处理声音信号。
更少的数字信号处理带来更低的功耗和更长的设备待机。边缘测的模拟信号机器学习芯片(analog ML chip)就如同智能的交通灯指挥,让数字信号处理芯片大部分时间处于休眠状态,仅在必要时加以唤醒。
基于仿生技术(bio-inspired)的长待机边缘信号处理(always-on edge processing approach),将允许模拟和数字芯片均可以在其最高能效比下工作(most efficient),为消费者带来更长待机的产品。消费者是最终的赢家(ultimate winner)。
谁不想要更长待机时间的设备呢?