简介:
>Scikit-learn是python很著名的一个机器学习和数据处理的包,这里将一步一步的对scikit—learn进行分解,每种机器学习的方法都会尝试进行一个实例,辅助阅读。
>官网:https://scikit-learn.org/stable/index.html
>注:不会多看看官网。
安装:
>Scikit-learn
requires: Python (>= 3.5) NumPy (>= 1.11.0) SciPy (>= 0.17.0) joblib (>= 0.11)
两种安装方式:
(1)直接conda安装:conda install scikit-learn
(2)或者pip pip install -U scikit-learn 问题设置:
>一般来说,机器学习会包含一系列的已知样本并会趋向于去预测未知样本的属性。如果每个样本包含的不只是一个数字,这几个数字就被称为他的特征或者贡献。
>机器学习中的学习问题分为几类:
>- 监督学习:数据附带我们想要预测的其他属性
>- (1)分类:输出为一个离散变量,简单来说就是将样本分为已知的几类,例如:将一堆西瓜,分为好瓜,坏瓜两个。
>- (2)回归:输出为一个连续变量,例如:已知西瓜的属性,根据瓜的大小预测瓜的重量。
>- 非监督学习:并没有目标值,只是将样本根据相似程度分为几类。###Training set and testing set:
> - 数据集:样本,samples,拥有一系列特征的数据,一般会将数据集随机分为两部分,进行机器学习
> - 训练集:机器学习将在这里学习样本的特征
> - 测试集:机器学习将在这里进行测试
代码语言:javascript复制#装载一个案例的数据集:
from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()
# iris和digits是scikit自带的数据集
数据集是一个类似于字典的对象,数据储存在(.data)项目中,是一个包括N个samples和N个features的集合。在监督学习中,一个或多个响应变量储存在(.target)项目中。###查看数据集:
>>> print(digits.data)
[[ 0. 0. 5. ... 0. 0. 0.]
[ 0. 0. 0. ... 10. 0. 0.]
[ 0. 0. 0. ... 16. 9. 0.]
...
[ 0. 0. 1. ... 6. 0. 0.]
[ 0. 0. 2. ... 12. 0. 0.]
[ 0. 0. 10. ... 12. 1. 0.]]
#digits中的数据查看
#每一个列表都是一个样本的特征的集合
>>> print(digits.target)
[0 1 2 ... 8 9 8]
#digits的样本的响应值,每一个都与上面的特征一一对应。