机器学习入门 5-1 简单线性回归

2019-11-13 14:07:35 浏览数 (1)

本系列是《玩转机器学习教程》一个整理的视频笔记。本小节主要介绍另一个机器学习领域的重要算法,线性回归算法。

01

线性回归算法

前面详细介绍了kNN算法解决分类问题,接下来要介绍的线性回归算法不同于kNN算法,线性回归算法解决的是回归问题。对于线性回归算法来说,具有下面的特点:

  1. 思想简单,实现容易,这是和线性回归算法背后很强的数学性质相关的;
  2. 许多强大的非线性模型的基础其他的一些算法比如多项式回归、逻辑回归以及SVM支持向量机都可以理解成线性回归算法的拓展;
  3. 结果具有很好的可解释性,也就是说我们可以通过数据分析模型的建立学习到真实世界真正的知识,因此在很多学界领域的研究中,都首先尝试线性回归算法,这个最基本最简单的方式;
  4. 蕴含机器学习中的很多重要思想。

接下来我们就来看一下什么是线性回归算法:

在这个二维坐标系中,横坐标表示房屋面积,纵坐标表示房屋价格,每一个点表示一个数据也就是一个房屋,这个房屋有对应的房屋面积和房屋价格。

线性回归算法假设的是房屋面积和价格呈现一定的线性关系,也就是说随着房屋面积的增加相应的房屋价格也会增大,并且这个增大的趋势是线性的。在这样的假设下,可不可以找到一条直线,我们希望这条直线可以最大程度的"拟合"样本特征和样本输出标记之间的关系。

在上面的数据中,每个数据只有一个特征房屋面积,而每个样本的输出标记就是房屋对应的价格。但是需要注意的是,此时的二维坐标轴和我们前面介绍的kNN分类时候的二维坐标轴是有很大的区别的:

  1. 在回归中,横轴为样本的特征,而纵轴为对应的输出标签,即房屋的价格;
  2. 在分类中,横坐标轴和纵坐标轴都是样本的特征,每个点有两个样本特征,前面在kNN分类中使用到的肿瘤数据集,横轴代表肿瘤大小,纵轴代表肿瘤的发现时间。此时样本的输出标记是被红色点还是蓝色点所表示的,蓝色点代表这个数据点是恶性肿瘤,红色的点代表这个数据点是良性肿瘤。

有这样的区别是因为在回归问题中,我们真正要预测的是一个具体的数值,此时这个具体的数值是在一个连续的空间中的,而不是能用简单的颜色来区别的,因此回归问题需要占用一个坐标轴的位置,简单来说:

  1. 分类问题的标签是一系列离散标签,我们可以通过颜色进行简单的区分;
  2. 回归问题的标签是一系列具体的数值,此时我们需要使用一个连续的范围来表示,因此选择另一个坐标轴作为回归问题的标签。

当然如果是处理两个特征的回归问题,则需要三维坐标轴来进行处理。对于一个样本特征的回归问题,我们称之为简单线性回归。

但是通过简单线性回归的研究,我们可以学习到线性回归算法相应的很多内容,之后我们就可以将其推广到样本特征拥有多个的情况下。此时样本特征如果有多个的话,就称之为多元线性回归。

接下来我们就看看简单线性回归问题。我们需要找到一条直线,这条直线要最大程度的"拟合"样本特征点,在二维坐标中,直线表示成"y=ax b",其中a表示斜率,b表示截距。

对于每一个数据点来说,都会对应一个样本特征,此时我们将上标表示第几个样本,如图所示,表示样本中第i个样本特征,他对应的输出标记就是对应的图中的第i个输出标记。

如果此时这条直线中的a和b我们都知道的话,代入第i个样本特征,得到的这个值就是我们使用简单线性回归法预测出来的对应第i个样本特征他的房屋价格是多少,这个值通常使用y hat(y上面小帽子)来表示。相应的此时预测的房屋价格和真实标记的房屋价格就会有一个差距。

总结一下:

找到的a和b使得方程尽可能小,这是一种典型的机器学习算法的推导思路,换句话说,我们所谓的建模的过程,其实就是找到一个模型最大程度的拟合我们的数据,在简单回归算法中,这个模型就是一个直线方程,所谓最大拟合我们的数据,本质上就是找到上面这样的一个函数,这个函数被称之为损失函数,也就是说度量出模型没有拟合住样本的这一部分,即损失的那一部分。但是在有些算法中可能度量的是拟合的程度,此时称这个函数为效用函数。有时候我们会将损失函数和效用函数统称为目标函数

上面不是具体某个算法,而是一种求解机器学习算法的思路。近乎可以说所有参数学习算法都是这样的一个套路。机器学习算法的分类:

  1. 参数学习算法,创建一个模型,而机器学习的任务就是要学习这些模型的参数,所谓的学习这些模型的参数,就是找到相应的这些参数,使得最优化损失函数或者效用函数(最小化损失函数,最大化效用函数),很多算法都是如此,区别就是模型不同,建立的目标函数式不同的,优化的方式也是不同的。正是因为大多数机器学习算法都是这个思路,这些机器学习算法都是基于频率派的,最终都会归结到最优化问题上,因此有一个学科《最优化原理》。
  2. 非参数学习算法,

求解使用最小二乘法:

0 人点赞