明月机器学习系列010:从线性回归到逻辑回归

2021-10-28 10:14:08 浏览数 (1)

上次已经讲到使用线性回归来解决分类问题,其实还不是很完整,还是把分类问题当成了回归问题来处理,这次我们先转化为一个标准的分类问题。

转化为分类问题


在讲线性回归的时候,我们预测的是房子的价格本身,而如果我们只是预测高房价还是低房价,我们预测的应该是这个分类类别本身,而不是预测房价。对于和之前一样的5个样本,高房价的样本为红点,对应y值为1,低房价的样本为蓝点,对应y值为0:

我们预测的模型如上图,还是和前面的文章一样,特征在x1的后边的预测为高房价,否则为低房价。

而这时如果加入一个比较偏离的样本,如下:

还是跟前面的文章一样,模型会受到这个新加入的点影响很大。但是实际上,这个点应该对模型影响很小才对,因为它已经远远偏离的分类的决策边界,也就是说它属于高房价的特征非常明显。所谓分类的决策边界应该是在x1附近,因为这附近的点很容易分类错误。(决策边界这个词一直觉得很好很形象)

那怎么才能保证模型在分类决策边界附近敏感,而对远离决策边界的样本不敏感呢?答案当然是有的,就是逻辑函数!

逻辑回归


逻辑函数的形状如这样:

这个刚好就是满足我们刚刚的想法,对于上图,其决策边界为x=0,因为x在0值附近,y值变化最大,而越远离0值,变化越小。(注意:这里说的变化,是指对应点的曲线梯度)

加上我们的样本数据看看:

很明显,那些偏离决策边界的点对应模型的影响是很小的。在决策边界右边的预测为高房价,在左边的预测为低房价。

显然,相对于线性回归,使用逻辑回归来解决分类问题是非常有优越性的!

(待续)

0 人点赞