机器学习定义
一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能有所提升。
监督学习
监督学习,意指给出一个算法,其中需要部分数据集已经有正确答案。
1.监督学习--回归问题
在监督学习中有一种要预测一个连续值的输出问题,比如预测房价,如下图所示:
给定房价数据集,对于里面每个占地面积,算法都知道对应的正确房价,然后根据这些已知正确答案的数据集,计算出很多未知价格但知道面积的房子的房价,这类监督学习的问题可以称作回归问题,也可以说回归问题属于监督学习中的一种。
2.监督学习之-分类问题
2.1 单特征分类问题 假设在数据集中,横轴表示肿瘤的大小, 纵轴用0或1来表示肿瘤是良性的还是恶性的,如下图。这里对应的机器学习问题就是,根据肿瘤(Tumor)的大小,你能否估算出一个概率,即肿瘤为恶性或者良性的概率。其实结果就只有0,1两种结果,这类问题可以称为分类问题。 所谓分类问题,其实就是要预测一个离散值输出,结果可能不止两种。
2.2 多特征分类问题 比如在上例中,只是根据肿瘤的大小来预测结果,但是在其它机器学习问题里, 往往有着不只一个的特征和属性。 例如,不仅肿瘤大小对结果有影响,病人的年龄也是其中的因素, 如下图所示,图中恶性肿瘤用叉来表示;良性肿瘤用圈来表示。
其实在许多问题中,用到的不只是三五个特征,经常要用到无数多个特征,非常多的属性。所以,你的学习算法要利用很多的属性或特征、线索来进行预测。
3. 在监督学习中,对于数据集中的每个数据,都有相应的正确答案,(训练集) 算法就是基于这些来做出预测。
总结:监督学习问题可以被归类为回归和分类问题。在回归问题中我们试图预测连续输出中的结果,即将输入变量映射到某个连续函数。在分类问题中,我们试图预测离散输出的结果,即试图将输入变量映射到离散类别。
无监督学习
- 在无监督学习中,没有属性或标签这一概念 即所有的数据都是一样的,没有区别。
- 无监督学习也即聚类问题,就是对于给定的数据集,且这些数据事先并没有给出确定的答案,而将其中的数据分成不同的聚类。
- 无监督学习的应用: 3.1 用来组织大型的计算机集群 3.2 用于社交网络的分析 3.3 用于市场分割 3.4 用于天文数据分析
- 无监督学习可以使我们不用或者很少知道结果如何,可以通过基于数据中变量之间的关系对数据进行聚类来推导出结构。