带着问题学 ML：什么是机器学习

摘要: 原创出处 www.bysocket.com 「泥瓦匠BYSocket 」欢迎转载，保留摘要，谢谢！

机器学习是个难以接受的东西。如果有案例就好了，那就 lets go~

Q：什么是机器学习？

机器学习就是让计算机有像人一样的学习能力的技术，是从数据中寻找有用的知识的数据挖掘技术。

比如呢？运用机器学习技术，类似今日头条给我推我喜欢看的，并看不完的短视频，（害得我卸载了…）。比如说，淘宝知道你喜欢的衣服款式，老是在猜你喜欢那里出现你喜欢的。

Q：那机器学习的数据种类不同吧？

是的，很不一样。根据所学习的数据种类，可以分为监督学习、无监督学习和强化学习等。

Q：什么是监督学习？

监督学习，就是计算机在有结果标记的数据学习后，能预测数据结果的学习过程。

比如，预测数值型数据的回归，预测标称型数据的分类等。太抽象了...

对应的比如，图像处理，垃圾邮件的分类和拦截等

Q：什么是无监督学习?

无监督学习，就是计算机在没有结果标志的数据学习后，能获取有用数据的学习过程。

自然还有个半监督学习，介于两者之间。

比如，预测肿瘤的良性恶性、视频分析等

Q：什么是强化学习？

强化学习，跟无监督学习类似，没有结果标志的数据学习后，又跟监督学习一样，能预测数据结果。

这个'四不像'，被认为人类的主要学习模式之一。

自然也很复杂，涉及到的算法很多。下面聊聊常见的算法。

Q：监督学习和无监督学习中有哪些典型的问题？

在机器学习中有很多典型的问题，比如回归、分类、异常检测、聚类和降维等。自然每个问题，延伸出就是算法，所以也有对应的算法。

Q：什么是回归问题？

回归，都对线性回归有印象吧。回归是数学模型，用于统计的一种方法。是对一组因变量 Yn 和另一组自变量 Xn 之间关系的统计分析。

比如记得以前用 SPSS 的时候，回归统计人的体表面积与身高、体重有关系。从案例看出，回归多半用在监督学习。

Q：什么是分类问题？

分类包括有监督分类和无监督分类。

有监督分类，就是大家一直知道的。术语表达，是指对于指定的模式进行识别的有监督识别问题。这类分类问题，也可以想回归问题那样，被看作是函数近似问题。对，在经过已知样本数据的训练，只能对未知样本估计分类，无法对分类近似分类。

无监督分类，没有任何先验条件，仅仅根据数据，（盲目）的分类。其分类结果肯定是不同纬度的分类，但不能确定分类的类别属性。

Q：什么是异常检测问题？

异常检测，简单说，就是从一堆数据中区分异常值和正常值。术语表达，对数据集中其他项目的项目、事件等识别。比如文本错误问题。

Q：什么是聚类问题？

聚类，和分类问题相似。但属于一种无监督学习。是把相似的样本分成不同的组别或者更多子集。关键词：相似，所以相同组别（子集）的样本具有相似的性质，不同组别（子集）的样本之间具有不同的性质。在聚类问题中，如何计算样本之间的相似度是很重要的。

Q：什么是降维问题？

降维，其目的很直接，提取关键信息。术语表达，是降低样本的个数，得到一组变量的过程。自然，根据样本种类的不同，（我们上面介绍监督学习和无监督学习，可以复习下）降维的问题也要分为监督降维和无监督降维。降维有两种方法：特征选择和特征提取。

特征选择，是假定样本数据中包含大量冗余和无关数据，从而找出主要数据的方法。

特征提取，是从高维数据中提取关键信息，转为低维数据进而求解的方法。过程中伴随着除去数据，创建新数据。

广泛用在图像识别领域。

最后学习脑图来一张

0 人点赞