据由Horst Gortz Institute的IT Security发布的最新研究表明,在人们没有注意到的情况下,可以通过任何平常的语音文件通过普通的扬声器向语音助理隐秘发送命令。语音识别软件可以侦测并反馈这些隐藏的语音命令,会引发潜在的安全问题,这需要引起开发者的注意。
研究者去年首次展示了可以将讯息分解(Break down),并将其隐藏在人耳所听不到的音频文件中。这些隐藏的命令必须直接作为数据传输(Be transmitted as data)以便软件可以随后处理。现在,任何扬声器播放修改(Altered)之后的音频就可以成功的在空气中传播秘密指令。
修改后的音频声音对人耳来说仅仅可以体会到微小的失真(Distorted)。实验中使用的开源的语音识别系统如Kaldi可以准确地听到和理解隐藏的信息(Message underneath)。
研究者通过心理声学(Psychoacoustics)隐藏讯息,人们如何感知(Perceive)和理解所听到的。人耳和人脑具有非凡的能力(capable of amazing feats),但是对于修改的信息的利用有局限性(Have limites that the altered message exploits)。
在人耳处理特定频率的声音的时候,有若干毫秒会忽略低音量声音(Ignore low-volume sounds)。机器就不存在这种限制。
在音频文件中的特定时刻,若将秘密命令隐藏在特定频率中时,人耳仅仅听到经典干扰声音(Static),软件却可以识别出信息。这与主音频文件无关(Main audio is irrelevant),可以使人生,交响乐,自然界声音等等。最终效果是一样的。
在集成所有的心理声学(Psychoacoustic)因素到修改的音频的过程中,研究者需要考虑在广播的时候如何保证空间形状的声音信息的完整性(keep message intact)。
研究者开发的程序在发送隐含了信息的音频文件之前,通过调整音频以适应特定的房间的形状。
“对比先前的工作采用固定的设置,我们的方法是将不同房间的特征(Characteristics of room)和麦克风以及扬声器的位置考虑在内”,“我们可以创建强大的对立样本(Adversarial examples),该样本适应不同的室内特征,如果使用通常的设定或者室内空间发生了变化”
隐藏的音频攻击
这很像计算机病毒。恶意的指令偷偷地流进了程序中,用户直到黑客启动指令的时候才意识到被入侵。
控制语音助理发送私密信息给黑客,或者通过语音APP诈骗(Fraud)都是可能的犯罪方式。
这种脆弱性(Vulnerability)比以前发现的其他语音助理的安全问题都更为严重(Significantly worse)。比如Alexa 开发者记录智能手机附近的对话音频16秒钟的漏洞。
另一个是"DolphinAttack”,超声波传输的语音命令可以激活并部分的(partially)控制语音助理。但这仅仅在攻击者与设备非常近的情况下发生,包括Siri, Alexa, Google Assistant。
为了解决以上人耳听不到的隐藏信息问题,研究者们相应(In tandem)开发了语音操纵解决方案(Countermeasures)。
一个潜在的方案是语音助理将所有接收到的音频文件转换为Mp3格式,这可以消除人耳所听不见的频率文件。当研究者将操纵音频(Manipulated audio)转变为MP3格式后,语音助理不再可以接收隐含的代码。
唯一的通过MP3传输隐含信息的方式是将其适配到频率范围之内。通过将人类听觉频率限制应用到设备,是一个很好地解决此类问题的方案。