4,数据的获取

2020-07-20 11:30:36 浏览数 (1)

sklearn 数据集一览

类型

获取方式

自带的小数据集

sklearn.datasets.load_...

在线下载的数据集

sklearn.datasets.fetch_...

计算机生成的数据集

sklearn.datasets.make_...

svmlight/libsvm格式的数据集

sklearn.datasets.load_svmlight_file(...)

mldata.org在线下载数据集

sklearn.datasets.fetch_mldata(...)

自带的小数据集:

  • 鸢尾花数据集:load_iris() 可用于分类 和 聚类
  • 乳腺癌数据集:load_breast_cancer() 可用于分类
  • 手写数字数据集:load_digits() 可用于分类
  • 糖尿病数据集:load_diabetes() 可用于分类
  • 波士顿房价数据集:load_boston() 可用于回归
  • 体能训练数据集: load_linnerud() 可用于回归
  • 图像数据集: load_sample_image(name)

计算机生成的数据集:

  • make_blobs 可用于聚类和分类
  • make_classification 可用于分类
  • make_circles 可用于分类
  • make_moons 可用于分类
  • make_multilabel_classification 可用于多标签分类
  • make_regression 可用于回归

一,自带的小数据集

二,计算机生成的数据集

使用计算机生成数据集的优点:

  • 非常灵活:可以控制样本数量,特征数量,类别数量,问题难易程度等等。
  • 无穷无尽:妈妈再也不用担心我没有数据集了。

可以在学习其他机器学习模块如tensorflow时使用sklearn的数据集

0 人点赞