语音AI,从云端(Cloud-based) 到设备端(On-device)的演进 - 更好的性能,更佳的隐私保护

2019-08-14 16:06:54 浏览数 (1)

随着语音助理 ( Voice Assistant)能力的持续提升,其应用也越来越流行 - 好像无处不在,出现在我们的家里,车里,移动设备里,甚至成为了流行文化的一部分而出现在电视里,电影里,音乐里,甚至广告中。然而,伴随着语音助理的流行,是对于个人隐私和数据安全的持续关注,因为从技术角度,要求设备一直处于监听和监视的状态,以便可以随时响应我们的命令。

Facebook和Google承认滥用了用户隐私数据,而Apple和Amazon也承认由于系统失效而造成的大量用户数据的泄露,人们似乎越来越对大公司缺乏信任。

自然的,为了保护用户的隐私数据,可以在设备端而不是在云端处理用户的语音和视频数据。云端查询仍然需要,但是通过匿名文本的方式,这样就避免了数据丢失的风险。

边缘计算 Vs 云计算

边缘计算 ( Edge-based computing)和云计算都有必要,以下是一些考量:

  • 算力和存储。深度学习可以利用云计算和云存储在算力和存储的优势。云端方案易受到网络连接速度和带宽的影响,边缘计算方案则不受影响。目前的深度学习网络模型不同于通用模型,允许运行局部自然语音处理引擎 (Natural Language Engines),仅需要较少的存储和MIPS算力,从而使设备端的自然语音处理成为了可能。随着芯片的尺寸越来越小,越来越便宜,而存储和算力却越来越强大,以及面向深度学习算法的专用架构芯片的出现,使得设备端的自然语音处理越来越可行。
  • 准确性。虽然算力和存储是影响准确性的主要因素,设备端方案却可以利用非云端的传感器数据,用户数据和其他嵌入数据,实现更佳的准确性。
  • 隐私(privacy)。设备端方案不用上传数据至云端。

人们会说过去几十年人们身边无处不在的麦克风和摄像头并没有产生什么问题啊,可是苹果刚刚承认Facetime的程序缺陷可以被用以窃听。

手机和智能音箱等物联网设备的不同之处在于,手机的监听范围只有1米左右,而智能音箱等物联网设备的监听范围可以达到30米。当我们通过唤醒词来唤醒的时候,更大范围的噪音更容易误唤醒设备。

室内远场(Far-field)云端的语音助理设备使我们的个人信息更容易被拦截监听。这不是设备的错误,而是人的错误。

如同海豚攻击(Dolphin Attack)可以使外部进入监听,云端设备还可以通过如下方式使隐私数据泄露:

  • 政府和企业的意愿,我们不应该低估市场的力量和科技巨头的说服能力。他们期望打开我们的荷包让我们买东西。Amazon擅长卖给我们东西。Google擅长连接用户并让他们看广告。用户数据让这些变得简单并更有效率。这些科技巨头有更大的意愿让我们的数据流向云端,同时政府又希望能够确保用户隐私的保护。欧洲已经发布了通用数据保护条例GDPR (General Data Protection Regulation) 。

设备端的语音助手将更加普遍

结论是,未来有更多的机会将智能语音助手带到设备端。它不仅提供更加的隐私保护,更通过灵活的可适配性带给用户更佳的可定制的用户体验。预测将来将由更多的设备采用设备端(on-device)语音控制和助手。当然,将来也会有更多的基于云端的语音控制和云意助手。两种方案哪一种将最终胜出,将更多的取决于政府管制和关于个体隐私的关切。

0 人点赞