作为运动相机,必须要满足运动场景下的HANDS-FREE解放双手的操作,而语音则以用户最自然的方式,赋予用户直观,强大和自然的人机交互方式。
GoPro -
GoPro的采用Sensory的离线多语言语音识别和控制技术,可以实现Always-on/Always-listening的关键词设备激活和唤醒,以及多达数条的离线语音命令。
GoPro以下产品支持离线语音控制 -
- HERO8 Black
- HERO7 (White, Silver, & Black)
- HERO6 Black
- Fusion
- HERO5 Black
- HERO5 Session
- HERO (2018)
- Remo
支持如下多语音的离线语音控制 -
- English (U.S. , U.K. and Australian)
- French
- German
- Italian
- Portuguese**
- Russian**
- Spanish
- Chinese
- Korean**
- Japanese
** Voice control is not available for these languages with Remo.
包含唤醒词"Go Pro"在内,支持多达12条离线语音控制 -
- “GoPro Start Recording”
- “GoPro HiLight” (Adds a highlight tag while recording video)
- “GoPro Stop Recording”
- “GoPro Take a Photo”
- “GoPro Shoot Burst”
- “GoPro Start Time Lapse”
- “GoPro Stop Time Lapse”
- “GoPro Video Mode”
- “GoPro Photo Mode”
- “GoPro Time Lapse Mode”
- “GoPro Burst Mode”
- “GoPro Turn Off”
并且在如下型号中,通过"GoPro Turn On",支持设备低功耗实时监听语音命令的设备开机,
- “GoPro Turn On” (only with HERO7 Black, HERO6 Black, & Remo HERO5 Black)
另外,GoPro还支持两条“秘密”语音命令,即"That was sick"和"Oh Shit",实现"GoPro Hilight"一样的功能,但是通过更加口语话的表达,摆脱了一本正经,增强了语音交互的趣味性。
现在让我们看一下DJI OSMO运动相机 -
DJI OSMO运动相机同样支持语音控制,不过对比GoPro运动相机,其语音功能和支持的语言如下 -
仅支持中文和英文两种语言 -
英文语音命令 -
take photo
Screen switch
start recording
stop recording
shut down
中文语音命令 -
拍张照片
切换屏幕
开始录像
停止录像
关闭相机
不支持设备的语音开机,支持的语言和语音命令偏少,并且由于缺乏前置唤醒词也会在一定程度上影响语音命令识别的准确性,影响了用户体验。
声纹识别和用户自定义语音命令
标准化的语音命令,如“开始录像”,可能会发生其他用户误触发的情况,当其他用户说出“开始录像”的时候,也可以被设备识别并触发动作。而结合了用户声纹特征的用户录入语音命令(Fixed-Phrase),甚至用户自定义语音命令(Text-Dependent),在解决了误触发的同时,也增强了趣味性,如用户可以用“芝麻开门”来作为拍张照片的语音命令,触发相机拍摄照片。
声音事件识别(Sound Event Recognition)触发运动相机自动识别和响应-
接着让我们探讨下语音交互在运动相机控制上的更多可能性。除了用语音指令之外,我们可以设定通过特定的声音事件(Sound Event Recognition)的识别触发设备执行任务。
如摩托车爱好者可以事先录入摩托车引擎发动的声音,Sensory SoundID声音事件识别引擎将会提取声音特征,作为声音事件"Motocycle engine start“。摩托骑手发动摩托车,运动相机自动识别摩托车引擎发动声音,而自发启动拍摄。
或者在自拍视频的时候,可以通过录入连续拍手三次"Hand Clapping 3 times"作为声音事件,这样就可以通过连续拍手三次启动拍摄照片或录影。
嵌入式语音技术的发展,为人与设备的交互带来了更丰富的体验和更多的可能性。GoPro和DJI在穿戴式运动相机上的设备端语音交互的实践,极大的提升了用户的使用体验。但这并不完美,仍有极大的性能和用户体验提升的空间。Speaker Identification声纹用户身份识别技术,ASR语音识别技术,和Sound Event Detection声音事件识别技术,为用户Hands-free的交互体验,提供了更坚实的技术基础,并打开了充满想象力的应用空间。