来来来~我们开始啦!!!
第一章,以简单的知识点为主,一两个小时即可过一遍。
小编选择以简单浏览为主,看不懂的无需太过在意,跳过即可,重要的知识点后面还会再提到的,看多了自然就明白咯~
整体评价:
简单、以概念为主
知识点:
machine learning:机器学习
Mitchell1997年给出了一个更形式化的定义:
假设用P,来评估计算机程序在某任务类T上的性能,若一个程序,通过利用经验E,在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
术语
- data set:数据集,所有观测值的集合
- instance/sample:示例或样本,观测值
- attribute/feature:属性或特征,即维度
- dimensionality:维数,维度的数量
- training data:训练集
- testing data:测试集
- label:标记 ,即Y
- feature selection:特征选择
有监督学习和无监督学习
- supervised learning:有监督学习(有明确答案),代表为binary/multi-class classification二分类/多分类,regression回归
- unsupervised learning:无监督学习(无明确答案),代表为clustering聚类
模型评估
- 拟合能力,对training data训练集的考察,避免过拟合和欠拟合
- generalization:泛化能力,对testing data测试集的考察,机器学习目标是使学得的模型能更好地适用于“新样本”,而不只是在训练集上做的好
归纳和演绎
induction:归纳,从特殊到一般的“泛化”generalization过程,形成概念
deduction:演绎,从一般到特殊的“特化”specialization过程,从基本原理/概念推演出具体情况
奥卡姆剃刀-Occam's razor
简单有效原理:简单有效、可证伪的更好
如无必要,勿增实体