大数据文摘出品
来源:ITmedia
编译:李欣月
不出声,仅仅通过喉咙和下颚的皮肤震动就能知道你想说什么。
这可不是特工电影里某个天马行空的高科技,最近,东京大学和索尼计算机科学研究所(CSL)共同研发出AI系统“Derma”就能实现上述功能,通过将传感器贴合在喉咙周围的皮肤上,就能实现从口形(无声说话)到语音的转化。
电影里奄奄一息的富翁想要修改遗嘱却无法发声最终被自私的儿子私吞财产的事再也不会发生了,当然首先,你要成为富二代。
不过,这项技术可不是用来干这个的。
据相关研究人员透露,研究灵感最初来源于视听障碍者的触诊唇读法,他们会用手指触摸说话者的嘴唇和下巴周围,以此读取说话内容。也就是说,他们通过触摸障碍者嘴唇周围的皮肤就可以知道他们的说话内容。
研究中,研究者们利用机器学习把整个过程自动化,完成了深层学习的无声语音交互(Silent Speech Interaction,SSI)。
传感器安装图
不过目前相关设备还在进一步地完善中,与可穿戴电子设备和身体嵌入式计算设备结合也还处于设想阶段。
但是想想总不是什么坏事。
具体说一下“Derma”。
只要在下颚皮肤的两个位置安装MEMS(Micro ElectroMechanical Systems)加速度计和角速度传感器,就能通过随着说话发生的下颚运动和舌肌运动引起的从下颚到喉咙的皮肤颤动,进行无声的“语音识别”了。
实验中,研究者从传感器上获取到了12维皮肤运动信息,通过深度学习能够分析识别35种发声命令短语,而且他们发现,系统的识别准确率达到了94%以上。
Derma的概要图:利用附着在咽喉周围皮肤上的加速度/角速度传感器,通过无声说话获取下颚皮肤运动信息,利用深层学习进行分析和识别
于是,利用生成音素记号系列的连接时间分类(Connectionist Temporal Classification, CTC)的神经网络进行训练,训练之后的模型就能把无声说话的皮肤颤动转换为语音,转换后的语音合成除了可以输入到附近的具有语音识别功能的数字设备(语音助手)之外,还可以用于帮助因声带损伤等原因而难以发声的用户进行交流。
实验使用的加速度/角速度传感器
与现有的无声语音交互研究相比,这个设备在安装时并不显眼,而且体积小、重量轻、耗电量低,不易受到照明条件等周围环境因素的影响。在生活中,该设备也不会影响到使用者的正常生活,吃饭和日常的交流可以照常进行,简直不能再实用。
相信这个设备在未来会造福大批残障人士。
相关报道:
https://www.itmedia.co.jp/news/articles/2003/18/news046.html