来源 | lionbridge.ai
编辑 | 代码医生团队
TensorFlow由Google Brain的研究人员创建,是用于机器学习和数据科学的最大的开源数据库之一。它是完整的初学者和经验丰富的数据科学家的端到端平台。TensorFlow库包括工具,预先训练的模型,机器学习指南以及一系列开放数据集。为了帮助找到所需的训练数据,本文将简要介绍一些用于机器学习的最大TensorFlow数据集。将以下列表分为图像,视频,音频和文本数据集。
TensorFlow图像数据集
1. CelebA:Celebrity Faces Attributes Dataset(CelebA)是最大的可公开使用的人脸图像数据集,其中包含200,000多个名人图像。
https://www.tensorflow.org/datasets/catalog/celeb_a
每个图像包括5个面部标志和40个二进制属性注释。
2.下采样Imagenet:此数据集用于密度估计和生成建模任务。它包括超过130万个物体,场景,车辆,人等的图像。图像有两种分辨率:32 x 32和64 x 64。
https://www.tensorflow.org/datasets/catalog/downsampled_imagenet
3. Lsun – Lsun是创建的大型图像数据集,用于帮助训练模型以了解场景。数据集包含超过900万张图像,这些图像分为场景类别,例如卧室,教室和餐厅。
https://www.tensorflow.org/datasets/catalog/lsun
4. Bigearthnet – Bigearthnet是另一个大型数据集,其中包含来自Sentinel-2卫星的航拍图像。每个图像覆盖1.2公里x 1.2公里的地面区域。数据集包括每个图像的43个失衡标签。
https://www.tensorflow.org/datasets/catalog/bigearthnet
5. Places 365 –顾名思义,Places 365包含超过180万张不同位置或场景的图像。其中一些类别包括办公室,码头和平房。Places 365是可用于场景识别任务的最大数据集之一。
https://www.tensorflow.org/datasets/catalog/places365_small
6. Quickdraw位图 – Quickdraw数据集是Quickdraw播放器社区绘制的图像的集合。它包含500万张图纸,涵盖345个类别。此版本的Quickdraw数据集包括28 x 28灰度格式的图像。
https://www.tensorflow.org/datasets/catalog/quickdraw_bitmap
7. 裁剪的SVHN–斯坦福大学的街景门牌号码(SVHN)是一个TensorFlow数据集,用于训练数字识别算法。它包含600,000个已裁剪为32 x 32像素的真实世界图像数据示例。
https://www.tensorflow.org/datasets/catalog/svhn_cropped
8. VGGFace2 – VGGFace2是最大的面部图像数据集之一,包含从Google搜索引擎下载的图像。面孔的年龄,姿势和种族各不相同。每个对象平均有362张图像。
https://www.tensorflow.org/datasets/catalog/vgg_face2
9. COCO –由来自Google,FAIR,Caltech等公司的合作者制作,COCO是世界上最大的带标签图像数据集之一。它是为对象检测,分割和图像字幕任务而构建的。
https://www.tensorflow.org/datasets/catalog/coco
数据集包含330,000张图像,其中200,000张被标记。图像中包含80个类别的150万个对象实例。
10. 开放图像挑战赛2019–包含约900万张图像,此数据集是在线上最大的带有标签的图像数据集之一。图像包含图像级标签,对象边界框和对象分割蒙版以及视觉关系。
https://www.tensorflow.org/datasets/catalog/open_images_challenge2019_detection
11. Open Images V4 –此数据集是上述Open Images数据集的另一个迭代。V4包含用于1,600万个不同对象类别的1,460万个边界框。边界框已由人工注释者手动绘制。
https://www.tensorflow.org/datasets/catalog/open_images_v4
12. AFLW2K3D –该数据集包含2000个面部图像,全部以3D面部地标标注。它是为评估3D面部界标检测模型而创建的。
https://www.tensorflow.org/datasets/catalog/aflw2k3d
视频数据集
13. UCF101 –来自中央佛罗里达大学的UCF101是用于训练动作识别模型的视频数据集。数据集包含13320个视频,涵盖101个动作类别。
https://www.tensorflow.org/datasets/catalog/ucf101
14. BAIR机器人推动-BAIR机器人推动来自伯克利人工智能研究中心,其中包含44,000个机器人推动动作的示例视频。
https://www.tensorflow.org/datasets/catalog/bair_robot_pushing_small
15. 移动MNIST–此数据集是MNIST基准数据集的变体。移动MNIST包含10,000个视频。
https://www.tensorflow.org/datasets/catalog/moving_mnist
每个视频显示2个手写数字在64 x 64帧内移动。
16. EMNIST –扩展MNIST包含原始MNIST数据集中转换为28 x 28像素格式的数字。
https://www.tensorflow.org/datasets/catalog/emnist
TensorFlow音频数据集
17. CREMA-D – CREMA-D是为情感识别任务而创建的,它由语音情感表达组成。该数据集包含由年龄,种族和性别不同的91位演员配音的7,442个音频剪辑。
https://www.tensorflow.org/datasets/catalog/crema_d
18. Librispeech – Librispeech是一个简单的音频数据集,其中包含1000个小时的英语语音,这些英语语音来自LibriVox项目的有声读物。它已被用来训练声学模型和语言模型。
https://www.tensorflow.org/datasets/catalog/librispeech
19. Libritts –该数据集包含约585小时的英语口语,由Google Brain团队成员协助编写。Libritts最初是为文本语音转换(TTS)研究而设计的,但可用于多种语音识别任务。
https://www.tensorflow.org/datasets/catalog/libritts
20. TED-LIUM – TED-LIUM是一个数据集,包含110多个小时的英语TED演讲。所有的谈话都被抄录了。
https://www.tensorflow.org/datasets/catalog/tedlium
21. VoxCeleb – VoxCeleb是为演讲者识别任务而建立的大型音频数据集,包含来自1,251位演讲者的150,000多个音频样本。
https://www.tensorflow.org/datasets/catalog/voxceleb
文字数据集
22. C4(通用抓取的Web抓取语料库) – Common Crawl是网页数据的开源存储库。它支持40多种语言,涵盖了七年的数据。
https://www.tensorflow.org/datasets/catalog/c4
23. 公民评论 –该数据集包含来自50个英语新闻站点的超过180万个公共评论示例。
https://www.tensorflow.org/datasets/catalog/civil_comments
24. IRC Disentanglement –这个TensorFlow数据集包括来自Ubuntu IRC频道的刚刚超过77,000条评论。每个样本的元数据包括消息ID和时间戳。
https://www.tensorflow.org/datasets/catalog/irc_disentanglement
25. Lm1b –被称为语言模型基准,该数据集包含10亿个单词。它最初是用来衡量统计语言建模的进度的。
https://www.tensorflow.org/datasets/catalog/snli
26. SNLI –斯坦福自然语言推理数据集是一个570,000个人类书面句子对的语料库。所有对均已手动标记以进行平衡分类。
https://www.tensorflow.org/datasets/catalog/snli
27. e-SNLI –该数据集是上述SNLI的扩展,其中包含原始数据集的570,000个句子对,分类为:含意,矛盾和中立。
https://www.tensorflow.org/datasets/catalog/esnli
28. MultiNLI –以SNLI数据集为模型,MultiNLI包括433,000个句子对,所有句子对都带有蕴含信息。
https://www.tensorflow.org/datasets/catalog/multi_nli
29. Wiki40b –这个大规模的数据集包含来自Wikipedia文章的40种不同语言的文本。数据已清理,非内容部分以及结构化对象已删除。
https://www.tensorflow.org/datasets/catalog/wiki40b
30. Yelp极性评论 –该数据集包含598,000个高度极性的Yelp评论。它们是从2015年Yelp数据集挑战中包含的数据中提取的。
https://www.tensorflow.org/datasets/catalog/yelp_polarity_reviews
尽管上面的数据集是用于机器学习的一些最大,使用最广泛的TensorFlow数据集,但TensorFlow库却庞大且不断扩展。请访问TensorFlow网站以获取有关该平台如何帮助构建自己的模型的更多信息。
推荐阅读
yolo在keras和tensorflow 2.2中的实现