sklearn数据集转换为csv以及数据集描述

2021-01-14 16:18:27 浏览数 (2)

波士顿房价load_boston导出csv例子(回归)

代码语言:javascript复制
import pandas as pd
from sklearn.datasets import load_boston


if __name__ == '__main__':
    boston = load_boston()
    df = pd.DataFrame(boston.data, columns=boston.feature_names)
    df['MEDV'] = boston['target']
    df.to_csv('./boston.csv', index=None)

CRIM:城镇人均犯罪率。

ZN:住宅用地超过 25000 sq.ft. 的比例。

INDUS:城镇非零售商用土地的比例。

CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。

NOX:一氧化氮浓度。

RM:住宅平均房间数。

AGE:1940 年之前建成的自用房屋比例。

DIS:到波士顿五个中心区域的加权距离。

RAD:辐射性公路的接近指数。

TAX:每 10000 美元的全值财产税率。

PTRATIO:城镇师生比例。

B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。

LSTAT:人口中地位低下者的比例。

MEDV:自住房的平均房价,以千美元计。

威斯康辛州乳腺癌(二分类)

代码语言:javascript复制
import pandas as pd
from sklearn.datasets import load_breast_cancer


if __name__ == '__main__':
    breast_cancer = load_breast_cancer()
    df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
    df['target'] = breast_cancer['target']
    df.to_csv('./breast_cancer.csv', index=None)

radius 半径(从中心到边缘上点的距离的平均值) texture 纹理(灰度值的标准偏差) perimeter 周长 area 面积 smoothness 平滑度(半径长度的局部变化) compactness 紧凑度(周长 ^ 2 /面积 - 1.0) concavity 凹面(轮廓的凹部的严重性) concave points 凹点(轮廓的凹部的数量) symmetry 对称性 fractal dimension 分形维数(海岸线近似 - 1)

radius (mean): 半径(平均值) texture (mean): 纹理(平均值) perimeter (mean): 周长(平均值) area (mean): 面积(平均值) smoothness (mean): 平滑度(平均值) compactness (mean): 紧凑度(平均值) concavity (mean): 凹面(平均值) concave points (mean): 凹点(平均值) symmetry (mean): 对称性(均值) fractal dimension (mean): 分形维数(均值) radius (standard error): 半径(标准误差) texture (standard error): 纹理(标准误差) perimeter (standard error): 周长(标准误差) area (standard error): 面积(标准误差) smoothness (standard error): 平滑度(标准误差) compactness (standard error): 紧凑度(标准误差) concavity (standard error): 凹面(标准误差) concave points (standard error): 凹点(标准误差) symmetry (standard error): 对称性(标准误差) fractal dimension (standard error): 分形维数(标准误差) radius (worst): 半径(最差) texture (worst): 纹理(最差) perimeter (worst): 周长(最差) area (worst): 面积(最差) smoothness (worst): 平滑度(最差) compactness (worst): 紧凑度(最差) concavity (worst): 凹面(最差) concave points (worst): 凹点(最差) symmetry (worst): 对称性(最差) fractal dimension (worst): 分形维数(最差)

target : 0(恶性)和1(良性)

鸢尾花(多分类、聚类)

代码语言:javascript复制
import pandas as pd
from sklearn.datasets import load_iris


if __name__ == '__main__':
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris['target']
    df.to_csv('./iris.csv', index=None)

sepal length 萼片长度(厘米) sepal width 萼片宽度(厘米) petal length 花瓣长度(厘米) petal width 花瓣宽度(厘米)

target 0-山鸢尾,1-变色鸢尾,2-维吉尼亚鸢尾

0 人点赞