本文是吴恩达《机器学习》视频笔记第34篇,对应第3周第2个视频。
“Logistic Regression——Hypothesis Representation”。
01
—
笔记
这个视频的标题是“Hypothesis Representation”,直译就是假设的表示。而假设是什么呢?就是我们要解决的问题目标(此处即分类问题),这个事怎样用数学语言(方程,计算机能够处理)来表述出来?就是这次视频的内容。
逻辑回归模型
上一个视频的最后,我们说逻辑回归的一个方法是将函数的取值落在[0,1]这个区间上,那怎样才能让我们的自变量构成的函数取值在[0,1]之间呢?
我们可以构造这样的函数:
我们原来的h(x)是 , 我们对它整个的结果再进行一次变化,假设用g(*)函数,g函数啥样呢?如下图,可以使用Sigmoid函数或者说Logistic函数。
上图中红色矩形框出来的就是Sigmoid函数,可以让我们的x向量以及对应的theta系数最后算出来的值经过变换后,落在[0,1]区间。
模型解释
那么,有了上面的那样一个模型方程 , 对应的输出y又该怎样取值呢?
注意了,因为是分类问题,y的取值是0或者1。也就是说,我们一个x对应于y的取值可能是0或者1,y取0或1的概率分别是多少呢?
还是以上次视频的肿瘤大小对应肿瘤良性、恶性的例子。这里这个例子,就是我们在已知肿瘤大小的前提下,我们判断这个肿瘤是良性或恶性的概率,也就是条件概率。这个事用数学与语言描述就是:
总结
总结一下,以肿瘤这个事为例,其实这个逻辑回归的本质还是让我们去根据已知的肿瘤大小和肿瘤良性、恶性这一堆经验数据,然后我们构建了一个逻辑回归模型方程,我们去找一组非常好的系数 ,让这组系数代入逻辑回归的模型方程能够非常好的拟合已有的经验数据。
然后,再用这个模型去预测新的不知道肿瘤是否良性只知道尺寸的肿瘤是良性的还是恶性的。
最后,我们得到的是y取0或1的条件概率。
那在训练的时候怎样评价好坏呢?还有我们的假设函数到底是在计算什么东西呢?且听下回。
02
—
视频
http://mpvideo.qpic.cn/0b78dqaaiaaahyapgcbxarpvahgdaqoaabaa.f10004.mp4?dis_k=891435ac494a3eb64c03acdb139f11c8&dis_t=1597632997