晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI
今天,Mozilla发布了迄今为止最大的公开语音数据集Common Voice,内容全部来自志愿者的贡献。它的总时长达到了1368小时,包含18种语言,其中也有汉语。
数据集中的每一条都包含了一组独立MP3录音及相应的文字文件,同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。
Mozilla希望此举能促进语音技术的创新与健康的商业竞争。
如何下载
现在去官方网站:
https://voice.mozilla.org/zh-CN/datasets
在上面填入自己的邮箱,内容会以tar.gz压缩包的形式下载到本地,而且可以按照不同语种分类下载。
其中英语部分的素材最多,总共达到了803小时,文件体积22GB。而汉语(中国台湾)现在的素材比较少,只有28小时、800MB。
但是大陆地区的汉语暂时还没上线,它的目标是录入5000句话,现在只有584句,只完成了目标的10%多。希望大家积极去做贡献,让它早日上线。
为汉语数据集做贡献
除了下载数据外,官方网站还提供了语音收集和验证的选项,你也可以为这个数据集贡献自己的一份力量。
打开电脑麦克风和扬声器,按照屏幕上的句子读出来,为数据集录入语音素材。你还能聆听别人的录音,验证数据的正确性。
对于未上线的大陆中文,你可以在网站上填写自己的邮件地址,成为提供资源的志愿者,Mozilla团队会在第一时间通知你最新进展。
特别之处
Common Voice是由志愿者按照屏幕文字录入的语音内容组成。
也许有人要问,有声读物本身就包含语音和文字的对照,为何Mozilla还要花大力气去做Common Voice?
因为有声读物作为语音识别的训练数据集存在着一些局限性。
首先,书面与口语非常大的不同。
其次,有声读物通常是在安静的录音棚内录制,录制设备质量更好,音频内容也很干净。而现实生活中的语音环境十分复杂。
最后,阅读时的语气和节奏也与平时说话不同。
其他语音数据集推荐
Mozilla还为大家提供了其他的语音数据集,有需要的同学请自取。
有声读物英文语料库LibriSpeech: https://www.openslr.org/12
TED演讲语料库TED-LIUM: https://www.openslr.org/51/
讲话转录文本语料库VoxForge: http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/
翻译和口语音频的大型数据库Tatoeba: https://tatoeba.org/eng/downloads
— 完 —