sklearn 数据集一览
类型 | 获取方式 |
---|---|
自带的小数据集 | sklearn.datasets.load_... |
在线下载的数据集 | sklearn.datasets.fetch_... |
计算机生成的数据集 | sklearn.datasets.make_... |
svmlight/libsvm格式的数据集 | sklearn.datasets.load_svmlight_file(...) |
mldata.org在线下载数据集 | sklearn.datasets.fetch_mldata(...) |
自带的小数据集:
- 鸢尾花数据集:load_iris() 可用于分类 和 聚类
- 乳腺癌数据集:load_breast_cancer() 可用于分类
- 手写数字数据集:load_digits() 可用于分类
- 糖尿病数据集:load_diabetes() 可用于分类
- 波士顿房价数据集:load_boston() 可用于回归
- 体能训练数据集: load_linnerud() 可用于回归
- 图像数据集: load_sample_image(name)
计算机生成的数据集:
- make_blobs 可用于聚类和分类
- make_classification 可用于分类
- make_circles 可用于分类
- make_moons 可用于分类
- make_multilabel_classification 可用于多标签分类
- make_regression 可用于回归
一,自带的小数据集
二,计算机生成的数据集
使用计算机生成数据集的优点:
- 非常灵活:可以控制样本数量,特征数量,类别数量,问题难易程度等等。
- 无穷无尽:妈妈再也不用担心我没有数据集了。
可以在学习其他机器学习模块如tensorflow时使用sklearn的数据集