人工智能 这个行业在现在是非常火爆的,我相信大家都有所了解。我对这个行业的认识是薪资高,门槛高,大部分要求是研究生以上学历。作为普通二本院校的我有点感到绝望~但是学还是要学的,因为我觉得学习本身是为了提升自己的能力和提高自己的生活质量,工作只是提高生活质量的一种手段。所以这几天去接触了一点机器学习方面的知识,了解到了“ 监督学习 ”和 “ 非监督学习 ” 两个基本概念,今天我就来简单分享一下
机器学习分为两大类,一是监督学习,二是非监督学习
监督学习是指 计算机通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或回归分析的过程。我的理解是,监督学习是计算机通过现有数据集去寻找数据的特征或规律,根据这些特征和规律搭建一个模型(这个过程就是在训练模型),然后再用这个模型对新的数据进行分类或回归分析
上面提到的 “分类“ 和 ”回归分析“是监督学习中的两种任务类型 。分类是指对样本的类标签进行预测,判断样本的所属类别。就是在训练好的模型上,判断新的样本属于模型中的哪种类别,然后将结果反馈给你。回归在我的理解中就是它是线性的,在提供的数据中找出其中的规律,然后用一条直线描述这些规律,从而进行分析
可能刚才说的还是难以理解,但我说下 ”分类“ 和 ”回归“ 的区别之后可能就比较容易理解了。回归是预测一个连续的数值或范围,而分类的结果是离散的数值
其次,在监督学习的训练数据集中一定要包含分类标签和特征变量。因为监督学习的过程是你先告诉计算机某个东西是什么,属于哪一类,这一类又有什么特征,然后计算机积累一些经验后再自己去分辨什么东西属于什么类别,不然计算机就很蒙逼了。这就是要包含分类标签和特征变量的原因
我们再提一下目标变量,它在监督学习中分为两类:标称型和数值型。那怎么去区分呢?答案就是可以从它们的取值范围区分。标称型的结果只在有限目标集内进行取值,而数值型可以在无限的数值中进行取值
监督学习就先简单介绍到这里,接下来介绍非监督学习
非监督学习 是在没有数据训练集和标签的数据中进行分析和建立合适的模型,以便给出解决方案的方法。就是说我只负责给你数据,不教你怎么去分辨,你自己根据这些数据找出共同规律去。这时候计算机就很蒙逼,脑袋都快要炸了哈哈~非监督学习的任务类型也有两类:聚类分析和数据转换
聚类分析 就是 把样本划归到不同的分组,每个分组的元素具有相近的特征;数据转换 就是将一些非二进制的数据转换为计算机能理解的数据,比如将图片转换为二进制数字。这样做的目的是把复杂的数据集通过非监督学习算法进行转换,使其便于理解。一种常用的方法是 数据降维,从较多的特征变量中去除一些不必要的特征变量,保留关键特征变量,达到降低维度的目的
下面是我做的思维导图:
注:本文内容参考于书籍《深入浅出python机器学习》