Sensory TrulyHandsfree - 技术概览

2021-08-26 15:05:09 浏览数 (1)

超高识别精度,低功耗,为硬件设备和各种应用带来高度可定制化的语音控制解决方案。

超强的灵活性,丰富的功能,为人机交互带来更加安全和易用的解决方案的同时,保障了设备开发商对自身品牌的保有和控制。

TrulyHandsfree在即使是远距离和噪音环境下,仍支持超快的交互反应,超低的功耗,以及优越的性能。

TrulyHandsfree语音控制语音识别技术为开发商带来品牌定制唤醒词,较少条目或者是中型条目数量的语音命令,用户语音身份识别,用户语音身份确认等诸多模式,可广泛支持如智能手机,平板,电脑,穿戴设备,耳机设备,医疗设备,和汽车等。

TrulyHandsfree可支持多种模型组件 -

固定唤醒词, Fixed wake word(FW)

预先定义的与具体用户无关的品牌唤醒词,如Alexa等。Sensory所训练的唤醒词可满足不同人口统计特征性下的不同个体,在真实使用环境下的语音识别需求,真正做到开箱即用。

用户录入的固定唤醒词,Enrolled wake word(EW)

同样是预先定义的品牌唤醒词如 Alexa,但是可适配和识别用户的不同发音特征。此场景需要用户实现录入,但对比FW模式带来了更低的FA和FR的优势。

用户自定义唤醒词,User-defined wake word(UDW)

由用户定义和录入的与具体语言无关的唤醒词或短语。

语音命令

结合FW,EW,UDW,通过对不同产品的交互设计,定义不同的命令行,实现与设备的语音交互。

语音用户身份验证和用户ID, Speaker Verification and Speaker ID

可实现语音密码功能。检测不同呼叫的差异性,对声音差异性非常敏感。此方案同样需要用户录入。

语音活动探测, Voice Activity Detector(VAD)

识别和判断用户语音的开始和结束,并捕获语音形成语音WAV流文件,可送至云端处理。

误接受过滤, False Accept Filtering

一种先进的机器学习算法,用以降低FA。某些情况下可降低50%-90%之多。

低功耗声音探测, Low-power Sound Detection(LPSD)

适用于DSP版本的TrulyHandsfree,仅处理和识别一定声音能级以上的语音。

模型集合, Model Combining

支持并行模式下的多唤醒词同时监听,也可实现串行下的唤醒词接语音命令的方式。

模型调试,Model Debugging

所有的模型可增加调试模式,增加时间戳。

代码空间模型链接,Code Space Model Linking

允许固定模型存储在代码空间(code memory)的运行模式,在RAM有限的情况下可释放更多的数据RAM空间。

小-大模型模式,Little-Big Models

结合了小模型(如小于100KB)的高效和大模型(如大于1MB)的高准确性。通过小模型的实时监听做初步判断,通过大模型进行二阶验证,实现更精准的识别。但缺点是二阶验证带来了额外的延时。

端点检测,End-Point Detection(EPD)

识别后对端点的时间戳标记。

TrulyHandsfree:标准的和嵌入式模式下的MEMORY和MIPS估算

Memory需求

  • Code Memory(ROM) 在运行于AP OS模式下,典型的THF所需占用的代码内存空间为1-2MB。若运行于DSP模式下,可支持更小30-40KB的代码空间占用。
  • Data Memory(RAM) THF需要工作内存实现对变量和音频的存储和缓存。在AP平台下,典型需要100KB,在DSP模式下典型需要14-16KB。开发者可灵活控制不同的音频缓存大小,如最小仅960 bytes,或大可至20.6KB,具体看是否配置LPSD或EPD。
  • Model Size Sensory可提供灵活的模型尺寸,小至40KB和大至1MB。模型可装载Code,或者是Data memory。在AP模式下,模型可动态的以文件系统形式转载,或静态的编译至应用中。在DSP模式下,模型可存储在ROM中,或移到RAM中以实现更快的读取。

MIPS需求和算力需求

  • DSP模式下使用小模型可低至3 MIPS,或在AP模式下需要 100MIPS。在支持LPSD,以及数字MIC和LDO的情况下,凭据识别电流消耗可小于1mA。

TrulyHandsfree, 性能数据

识别率在不同情况下有巨大的差异,如vacabulary size, vocabulary words, grammar specification, noise conditions, 口音或者是距离因素等。

TrulyHandsfree在高噪音环境下或原厂环境下均拥有优秀的性能。如下的图标分别展示了在单唤醒词在不同模型尺寸下的识别率曲线,如80KB, 250KB和1MB-

用户录入的固定唤醒词识别率(Enrolled Fixed Wake Word Accuracy) -

TrulyHandsfree 技术规范

0 人点赞