人工智能业内普遍认为,语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别(ASR)、语音合成(TTS)技术在不断突破。虽然理论技术取得了长足进步,但是在实际应用过程中仍绕不开数据标注这一话题,训练数据的准确性很大程度上影响了算法模型的表现。
两个月前,Mozilla 发布了其开源语音识别数据集项目 Common Voice 的最新版本,并宣布其已成为当前全球最大的人类语音数据集。接下来我们聊聊这些语音数据集是如何生产的。
有一篇文章比较详细地介绍了语音标注工具Praat的使用方法,我想说的是Praat真的非常难用,今天找到一款在web上运行的语音数据标注工具,京东做的并且开放了出来,可以自主配置
https://biao.jd.com/bz
1. 配置标注工具
添加描述
① 选择是否转写:即是否是需要将音频转写为文字。大部分都需要吧
② 最长语音切割时长:即最长需要标注几秒,视你的素材而定。把这个定义清楚,防止标注人员把语音切割过长。
③ 选择或增加分层:系统默认给出了常用的角色、性别,可以根据你的需要增加或减少分层
④ 判断项:可针对噪音、发音重叠等情况做特殊处理
⑤ 填写具体的标注规则,方便标注人员实时查看
2. 预览工具
添加描述
接下来你可以试用一下刚才配置的标注工具,可以转写音频,标注角色、性别、噪音等。可以拖拽时间段、播放每一段的音频,体验还是非常好的,标注效率也会大大提高。
3. 上传数据
按照系统要求上传待标注的语音数据,在此不做赘述。给大家两段语音测试用
4. 发布标注项目
添加描述
你可以在京东众智这个平台上选择一个标注团队为你标注,输入你要求的合格率、工期要求等等,和标注团队确定好价格和预付费就好了。工具使用费是给平台的,目前是免费。总的来说,一定是比找其他标注平台要更便宜的。
5. 验收与导出数据
标注团队完成标注后,你可以在线上验收标注结果,不合格的话可以回滚,让标注团队重新标注。结算之后就能导出数据了。
我与一些标注团队沟通过,转写一小时的语音大约要150-200元左右,当然还要看各位具体的需求和标注难度。希望未来大厂们将更多的语音数据开源出来推动科技进步,开源万岁!