迄今最大公开语音数据集上线,汉语部分还不够强,需要你来帮忙

2019-04-23 15:03:53 浏览数 (1)

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

今天,Mozilla发布了迄今为止最大的公开语音数据集Common Voice,内容全部来自志愿者的贡献。它的总时长达到了1368小时,包含18种语言,其中也有汉语

数据集中的每一条都包含了一组独立MP3录音及相应的文字文件,同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。

Mozilla希望此举能促进语音技术的创新与健康的商业竞争。

如何下载

现在去官方网站:

https://voice.mozilla.org/zh-CN/datasets

在上面填入自己的邮箱,内容会以tar.gz压缩包的形式下载到本地,而且可以按照不同语种分类下载。

其中英语部分的素材最多,总共达到了803小时,文件体积22GB。而汉语(中国台湾)现在的素材比较少,只有28小时、800MB。

但是大陆地区的汉语暂时还没上线,它的目标是录入5000句话,现在只有584句,只完成了目标的10%多。希望大家积极去做贡献,让它早日上线。

为汉语数据集做贡献

除了下载数据外,官方网站还提供了语音收集和验证的选项,你也可以为这个数据集贡献自己的一份力量。

打开电脑麦克风和扬声器,按照屏幕上的句子读出来,为数据集录入语音素材。你还能聆听别人的录音,验证数据的正确性。

对于未上线的大陆中文,你可以在网站上填写自己的邮件地址,成为提供资源的志愿者,Mozilla团队会在第一时间通知你最新进展。

特别之处

Common Voice是由志愿者按照屏幕文字录入的语音内容组成。

也许有人要问,有声读物本身就包含语音和文字的对照,为何Mozilla还要花大力气去做Common Voice?

因为有声读物作为语音识别的训练数据集存在着一些局限性。

首先,书面与口语非常大的不同。

其次,有声读物通常是在安静的录音棚内录制,录制设备质量更好,音频内容也很干净。而现实生活中的语音环境十分复杂。

最后,阅读时的语气和节奏也与平时说话不同。

其他语音数据集推荐

Mozilla还为大家提供了其他的语音数据集,有需要的同学请自取。

有声读物英文语料库LibriSpeech: https://www.openslr.org/12

TED演讲语料库TED-LIUM: https://www.openslr.org/51/

讲话转录文本语料库VoxForge: http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/

翻译和口语音频的大型数据库Tatoeba: https://tatoeba.org/eng/downloads

0 人点赞