为什么需要为孩子开发专门的语音识别算法

2023-03-02 21:20:44 浏览数 (2)

- 为什么需要为孩子开发专门的语音识别算法 -

孩子的语音特征,其与成人的不同之处。为什么现在的通用语音识别算法在识别孩子语音的时候表现糟糕,以及Sensory的解决之道 - Sensory VoiceAI for Kids!

支持语音的数字助理有望让孩子与技术进行更顺畅的互动。但是,虽然孩子们喜欢让与语音助理打口技、讲笑话或发出动物声音,但家长和老师都知道,一旦他们偏离可预测的要求,这些系统就很难理解孩子们。

挑战源于这样一个事实,即现在的语音识别算法从未设计用于儿童,他们的声音、语言和行为远比成人复杂。

不仅仅是孩子的声音更尖了,他们的声道更细更短,他们的声带更小,他们的喉咙还没有完全发育。这导致与年龄较大的儿童或成人的言语模式截然不同。

从下图可以很容易地看出,简单地改变用于训练语音识别的成人声音的音高无法重现理解儿童语音所需的复杂信息。

儿童的语言结构和模式千差万别。它们在句法、发音和语法方面取得了飞跃,语音识别系统的自然语言处理组件需要考虑这些方面。

这种复杂性因处于不同发育阶段的儿童之间的说话者之间的差异而变得更加复杂,而这些差异不需要用成人语言来解释。

儿童的言语行为不仅比成人多变,而且极不稳定。孩子们过度发音,拉长某些音节,在他们大声思考时标点每个单词或完全跳过一些单词。

他们的语音模式不受为成人用户构建的系统所熟悉的常见节奏的影响。作为成年人,我们已经学会了如何与这些设备进行最佳交互,如何引发最佳反应。我们挺直自己,在头脑中制定要求,根据习得的行为对其进行修改,然后大声说出我们的要求,孩子们只是脱口而出他们没有想到的要求,就好像 Siri 或 Alexa人类,而且往往会得到错误或固定的回应。

语音识别不仅要应对环境噪音和教室的不可预测性,还要应对儿童语音全年的变化,以及典型小学中口音和方言的多样性,这一事实加剧了这些挑战学校。孩子和成人之间的身体、语言和行为差异也随着孩子年龄的增长而急剧增加。

为了解释和理解儿童语言的各种怪癖,需要构建语音识别系统来有意识地从儿童说话的方式中学习。儿童的语音不能简单地视为语音识别要适应的另一种口音或方言;它在根本上和实践上都是不同的,并且随着孩子身体和语言技能的成长和发展而改变。

与大多数消费者环境不同,准确性对儿童有着深远的影响。一个告诉孩子他们错了但他们是对的系统(假阴性)会损害他们的信心;这告诉他们他们是对的,而他们是错的(误报)可能会造成社会情感(和心理)伤害。在娱乐环境中,在应用程序、游戏、机器人和智能玩具中,这些误报或误报会导致令人沮丧的体验。在学校里,错误、误解或预设的反应可能会对教育和公平产生更深远的影响。

例如,语音识别中有据可查的偏见会对儿童产生有害影响。对于具有特定人口统计或社会经济背景的孩子,产品的准确性较差(提供误报和误报)是不可接受的。越来越多的研究 表明,语音对于孩子来说可能是一个非常有价值的界面,但我们不能允许或忽视它放大我们学校已经普遍存在的偏见和不平等的潜力。

语音识别有可能成为孩子们在家中和课堂上的强大工具。它可以填补在识字和语言学习阶段支持儿童的关键空白,帮助孩子更好地理解周围的世界并被他们理解。

它可以为“隐形”观测措施的新时代铺平道路,即使在偏远的环境中也能可靠地发挥作用。但当今的大多数语音识别工具都不适合这个目标。Siri、Alexa 和其他语音助手中的技术有一项工作要做——理解说话清晰且可预测的成年人——而且,在大多数情况下,他们做得很好。如果语音识别要为孩子们工作,就必须针对他们独特的声音、语言和行为进行建模和响应。

Sensory 的新型儿童语音识别算反,为应用程序、玩具、儿童可穿戴设备和教育技术带来无与伦比的准确性和隐私性

Sensory Inc.是 Edge AI 的公认领导者,提供经过定制训练的语音识别模型,这些模型可以理解与儿童语音相关的独特语言模式。

专为儿童声音设计的算法和语音模型,支持 Sensory 的TrulyHandsfree短语识别技术和TrulyNatural大词汇量连续语音识别算法。借助这项技术进步,应用程序、儿童玩具、儿童可穿戴设备和教育技术的开发人员可以利用 Sensory 的边缘人工智能架构无与伦比的准确性和私密性实施语音控制技术。

准确识别儿童的语音具有挑战性,因为它在许多方面与成人语音不同。缺乏可用的训练数据使这个问题更难解决。多年来,Sensory 收集并分析了大量儿童的言语,以更好地理解和模拟儿童谈话的细节。对儿童自发语音语料库的初步测试表明,与成人语音识别模型相比,单词错误率降低了 33%。

开发人员现在可以在 Sensory 的VoiceHub开发人员门户中访问儿童语音模型以及 Sensory 行业领先的成人语音模型。

VoiceHub 的灵活性允许直接导出到许多受支持的 DSP 和微控制器格式,支持广泛的硬件开发平台。

Sensory 面向开发者的免费VoiceHub语音模型定制开发在线门户,点击如下链接在线申请-

https://voicehub.sensory.com/index.html

在交互语言部分选择English (USA) Kids,以便输出面向美国儿童英语的语音模型,帮助开发面向儿童的应用程序、儿童玩具、儿童可穿戴设备和教育技术产品。

0 人点赞