近年来,人工智能快速发展,相关的框架、算法等层出不穷,要检验一个算法的好坏,就需要用有关的数据集进行实验,那么我们要去哪里找相关的数据集呢?下面列举几个人工智能方面的公共数据集,希望对大家有所帮助。
1 UCI数据库
UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有474个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。该数据库主要是与机器学习有关的数据集,一般作为验证数据集。该数据库的网址为:uci,可以去该数据库免费下载你所需要的数据集。
2 RAWDAD数据库
RAWDAD数据库是用于存档无线数据的社区资源,它里面主要是传感器收集的数据,无线网络,社交网络,遥感图像等相关数据。该数据库共有125个数据集,22个实用工具,你可以去该数据库下载相关的数据集。该数据库的网址为:crawdad
3 AWS数据库
AWS(亚马逊)公共数据库里面存储了AWS收集的数据集,你可以通过简单的注册,登录来下载它们。该数据库的网址为:opendata.aws。
4 NASA数据库
NASA数据库里面主要存储了与航空相关的各种图像数据集,你可以通过登录网站来下载它们。该数据库的网址为:.nasa。
5 Webhose数据库
Webhose的免费数据库包括来自各种不同来源,语言和类别的数据。该数据库里面包含的数据集主要是文本数据集,使用Webhose的数据集主要是进行预测分析,风险建模,NLP,机器学习和情绪分析。该数据库的网址为:webhose.io/free-datasets/。
6 BROAD数据库
BROAD数据库中主要包含的是癌症相关的数据集,如果需要医疗图像的相关数据,可以来这个数据库下载相关的数据集。该数据库的网址为:broadinstitute
7 MNIST数据库
MNIST数据库中主要是包含手写数字的数据集,该数据库具有60,000个示例的训练集和10,000个示例的测试集。你可以用该数据集训练及测试你所构建的神经网络。该数据库的网址为mnist
8 CIFAR-10数据库
CIFAR-10数据集由10个类中的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。 该数据库的网址为cifar
9 Caltech101数据库
Caltech101数据库中包含101类别的对象的图片。每类约40至800张图片。大多数类别有大约50张图片。每幅图像的大小约为300 x 200像素。该数据库的网址为:Caltech101
10 SVHN数据库
SVHN是一个真实的图像数据库,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它可以被看作与MNIST的风味相似(例如,图像是小的裁剪数字),但是包含更多标记数据的数量级(超过600,000个数字图像)并且来源更加困难,未解决的现实世界问题(识别自然场景图像中的数字和数字)。SVHN是从Google街景图像中的门牌号码获得的。 该数据库的网址为:housenumbers
11 世界资源研究所数据库
该数据库包含125个与世界资源有关的数据集,该数据库的网址为:datasets
12 耶鲁人脸数据库
耶鲁人脸数据库(大小6.4MB)包含165个GIF格式的15个灰度图像。每个主题有11个图像,每个不同的面部表情或配置一个:中心光,带眼镜,快乐,左光,没有眼镜,正常,右光,悲伤,困,惊讶和眨眼。该数据库的网址为:yale-face-database。
13 TIMIT声学 - 语音连续语音语料库
TIMIT语音读取语料库旨在为声学语音研究以及自动语音识别系统的开发和评估提供语音数据。TIMIT包含由八种主要美国英语方言组成的630个扬声器的宽带录音,每个方言都有10个语音丰富的句子。TIMIT语料库包括时间对齐的正交,语音和单词转录以及每个话语的16位,16kHz语音波形文件。该数据库的网址为:ldc.upenn。
14 聚数力数据库
聚数力数据库主要整合了来自其他数据库的数据集,你可以通过搜索数据集的关键词来下载相应的数据集。该数据库的网址为:glance。