选自gengo.ai
作者:Meiryum Ali
机器之心编译
参与:王淑婷、路
与大部分机器学习模型一样,有效的机器翻译系统需要大量的训练数据才能产生可读性强的结果。平行文本翻译语料库是两种语言之间的结构化翻译文本集。此类平行语料库对训练机器翻译算法至关重要。但从哪里可以获得这些外语数据集呢?请看下列清单↓↓↓
平行文本数据集
- Aligned Hansards of the 36th Parliament of Canada:包含英语-法语句对。
- 地址:https://www.isi.edu/natural-language/download/hansard/
- European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 种欧洲语言句对。
- 地址:http://www.statmt.org/europarl/
- Global Voices Parallel Corpus:新闻门户网站 Global Voices 的内容精选,包括 57 种语言的新闻文本。
- 地址:http://casmacat.eu/corpus/global-voices.html
- RATS language identification:包含将近 5400 个小时的阿拉伯语、波斯语、达里语、普什图语和乌尔都语电话会话语音,并附有语音分割标注。
- 地址:https://catalog.ldc.upenn.edu/LDC2018S10
- Chinese-French Text:包含来自 Chinese Broadcast News 语料库的大约 3 万汉字子集的法语译文。
- 地址:https://catalog.ldc.upenn.edu/LDC2018T17
- Arabizi Text:自动检测英语和阿拉伯语混合文本中语码转换的训练数据,包含 522 条推特。
- 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/
- English-Vietnamese Text:包含 50 万个英语-越南语句对的语料库。
- 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/
- English-Persian Text:包含超过 20 万个英语-波斯语对齐句对。
- 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/
- Chinese-English Emails:包含来自电子邮件的 15000 个汉字(相当于 10000 个英文单词)及其英文参考译文。
- 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/
- French-Arabic Newspapers:包含 10000 个阿拉伯语单词和 2 个法语参考译文的语料库。源文本是 2013 年 5 月从阿拉伯版《Le Monde Diplomatique》中收集的文章。
- 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/
- Pashto-French Text:106 个小时的普什图语录音的文字记录及其法语译文。
- 地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/
- German-English Text:手动词对齐的德语-英语平行语料库。
- 地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip
- Turkish-English Text:为 WMT 2018 准备的土耳其语-英语平行语料库。
- 地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534
- UN translation text:6 种不同语言的联合国翻译文档合集。
- 地址:http://opus.nlpl.eu/UN.php
- XhosaNavy:南非海军英语和科萨语平行语料库。
- 地址:http://opus.nlpl.eu/XhosaNavy.php
- Wikipedia:20 种语言的平行句子语料库,句子来源于维基百科。
- 地址:http://opus.nlpl.eu/Wikipedia.php
- English-Croatian:英语和克罗地亚语平行文本。
- 地址:http://opus.nlpl.eu/hrenWaC.php
- Catalan-Spanish:从加泰罗尼亚政府官方刊物中收集的加泰罗尼亚语和西班牙语文档合集。
- 地址:http://opus.nlpl.eu/DOGC.php
- English-Japanese:Wikipedia』s Kyoto Articles 日英双语语料库,包含大约 50 万个人工翻译的句对。
- 地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus
- OntoNotes:包含英语、中文和阿拉伯语各类文本(新闻、电话会话、网络日志、新闻组、广播、脱口秀)的标注语料库。
- 地址:https://catalog.ldc.upenn.edu/ldc2013t19
- Central Europe Telephone Speech:包含约 44 小时的标注电话语音,捷克和斯洛伐克语。
- 地址:https://catalog.ldc.upenn.edu/LDC2018S08
- South Asia Telephone Speech:包含约 118 小时的标注电话语音,孟加拉语、印地语、旁遮普语、泰米尔语和乌尔都语。
- 地址:https://catalog.ldc.upenn.edu/LDC2017S14
- Turkish Telephone Speech:包含约 18 小时的土耳其语电话语音。
- 地址:https://catalog.ldc.upenn.edu/LDC2017S09
- Chinese Treebank:来自 Chinese newswire、政府文件、杂志文章和各种广播新闻的约 150 万字标注和解析文本。
- 地址:https://catalog.ldc.upenn.edu/LDC2013T21
- Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大约 37 小时阿拉伯广播新闻文字记录。
- 地址:https://catalog.ldc.upenn.edu/LDC2018T14
原文链接:https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/