【重温经典】吴恩达机器学习课程学习笔记七:Logistic回归

2018-04-16 10:34:48 浏览数 (1)

【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专知内容组推出吴恩达老师的机器学习课程笔记系列,重温机器学习经典课程,希望大家会喜欢。

【重温经典】吴恩达机器学习课程学习笔记一:监督学习

【重温经典】吴恩达机器学习课程学习笔记二:无监督学习(unsupervised learning)

【重温经典】吴恩达机器学习课程学习笔记三:监督学习模型以及代价函数的介绍

【重温经典】吴恩达机器学习课程学习笔记四:梯度下降

【重温经典】吴恩达机器学习课程学习笔记五:多元梯度下降

【重温经典】吴恩达机器学习课程学习笔记六:特征处理与多项式拟合

吴恩达机器学习课程系列视频链接

http://study.163.com/course/courseMain.htm?courseId=1004570029

春节充电系列:李宏毅2017机器学习课程学习全部笔记

吴恩达课程学习笔记七:Logistic回归

1、 Logistic回归是一种分类算法



在前面的总结里,介绍了垃圾邮件的分类,以及判断是否为恶性肿瘤的问题。这类问题有一个共同的特点,即输出或预测都可以用是或否来表示,也就是可以用离散值1和0来表示输出。

继续来看一下判断是否为恶性肿瘤的例子,假设有数据集的分布如下,可以利用线性函数来拟合。例如设置阈值为0.5,当输出值(y)大于等于0.5的时候,归类为1。在如下的数据集上结果似乎不错。

如果在数据集上在添加一个如下图最右边的点,这时拟合的线性函数就可能变成蓝色线所示,同样在阈值设置为0.5时,就会有一些点不必要的被错判。这时线性拟合显示出来它极大的缺陷。即对于分类问题,线性回归并不是一个好的算法。

还有一点需要注意,本例中的输出y只在0和1取值,但是用线性拟合,输出值可能会远大于1或远小于0。所以接下来将说明一些关于logistic回归算法的知识,它可以将输出值(预测值)的范围限制在0到1之间。

注意:虽然这里提到了回归,但是logistic是一个分类算法。

2、 假设表示



为了使输出值(预测值)的范围在0到1,对Theta^{T}x 进行g()函数处理后作为假设函数h_{Theta}(x) 这里的函数g()称为Sigmoid函数或logistic函数,这也是名字——logistic回归的原来。其中

,g(z)的图像如下图右半部分,在z->∞时,g(z)->1;当z->-∞时,g(z)->0,即函数值的范围为0到1。这样得到的假设函数

假设函数的意义:

由上可知假设函数的范围为0到1,很自然地想到概率。换言之,如果我们对于某一组输入,得到=0.7,即意味着该肿瘤为恶性肿瘤的概率为0.7。用数学表达为

,即h_{Theta}(x) 为在参数Theta 及输入x给定情况下,输出y=1的概率。

接下来介绍一下决策边界,它能很好的告诉我们Logistic回归的假设函数在计算什么。

3、 决策边界

如下图所示,当h_{Theta}(x) 的值大于0.5时,即Theta^{T}x 的值大于等于0时,预测输出y=1;反之预测输出y=0。

假设有如下左上方的数据集,我们通过某种方式已经求得了参数 Theta (具体求解的方法会在后面介绍)=[-3,1,1],根据前面介绍的可知当预测y=1时,需要满足

;其中

对应于图中红色的直线,这条直线在这里就称之为决策边界。如图中所示,在决策边界的上半部分,判定为y=1,下半部分,判定为y=0。

对于如下更为复杂的数据集,同样可以利用logistic回归,但是g()函数的对象将不是简单的线性组合,而是多项式函数。假设我们通过某种方式求得参数分别为[-1,0,0,1,1],则要使预测y=1,可得

,即

,此时决策边界为

,边界外部判断为y=1,内部判断为y=0。

综上可知,给定了参数,决策边界也就确定了。

4、 代价函数



如下,有m组数据,每组数据有n个特征,输出值(类别)为0或1。该如何确定参数向量

如下,在线性回归时,曾定义代价函数如下,现在用

来简化求和符号后的表示(即

),对于单一的一组数据,则表示成

我们知道

,最终得到的J(θ)不是凸函数,即存在多个局部最优点,而使用梯度下降法要求J(θ)是凸函数。

由于上述的问题,定义logistic回归的代价函数如下:

1、 当y=1时,只有当

时,Cost=0。当

时,判断y=1的概率是1,则此时判断错误带来的代价是无穷大的,即Cost值趋向于无穷大。

2、 当y=0时与y=1类似。

后面的总结中会将单组数据的代价函数扩展到整个数据集上,对logistic回归的代价函数简化并使用梯度下降算法。

参考链接:

http://study.163.com/course/courseMain.htm?courseId=1004570029

-END-

0 人点赞