2021 开年巨献 —— 系列文章《AI 入行那些事儿》,为您讲述:
- 人工智能的基础原理、发展历程、当前应用
- 成为 AI 技术人员所需的入门技能和学习途径
- 以及求职、面试的全过程
模型:机器学习三要素的核心
机器学习的三要素中,最核心的是模型。无论算法还是数据都是为获得模型服务的。
建议读者在学习机器学习时,从模型函数入手,以数据处理、特征提取等知识为辅。通过推导模型的目标函数,来学习求解过程,并以此来学习算法。
有监督学习 vs 无监督学习机
简单来说,机器学习模型可以分为两种:有监督的和无监督的。
有监督学习
前文提到的关于员工信息的模型就是有监督的模型,每一个训练数据样例都有一个人工打上的标签。
有监督的模型可以分成多种类型,其中最常用的有回归模型和分类模型两种。回归模型的预测结果是连续的,它输出的是一个范围内的连续型任意值,而分类模型的预测结果是离散的,是几个有限的域离散值中的一个。
垃圾邮件过滤器就是一种分类模型,在一封邮件进入系统后,垃圾邮件过滤器会对邮件进行判断,并给它打一个标签。这个标签只可能是“垃圾”或“不是垃圾”,不存在第三种情况,所以它的输出是有限个。
线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯分类器、隐马尔可夫模型、条件随机场等都是有监督的模型。
无监督学习
没有标签的训练数据被用于无监督学习。
无监督算法中最典型的一种是聚类。聚类是指把特征相同的一些样本聚集在一起。
实际上,在聚集之前,我们也不知道聚集的结果是什么,在聚集之后,我们仍然不知道聚集起来的是什么类别的样本。K均值和谱聚类都是无监督的聚类模型。
机器学习的应用
机器学习的应用领域非常广泛,在金融领域,有一个术语叫做 Fintech,是指把以前很多由人工来完成的工作交给机器学习模型来完成。
在北美,风控、风险评估、贷款评估等工作都已经完全通过这种自动化的方式来完成了。
在中国,机器学习的发展相对较慢,很多工作还是由人工完成,但近年来,中国的银行也在发生变化,自动化的工作越来越多。
除此之外,数据发掘、电商推荐系统(包括用户画像),以及工业上的异常检测等都是机器学习的应用领域。