- 鞋的美观程度 不是 一项实用特征。
合适的特征应该是具体且可量化的。美观程度是一种过于模糊的概念,不能作为实用特征。美观程度可能是某些具体特征(例如样式和颜色)的综合表现。样式和颜色都比美观程度更适合用作特征。
- 回归与分类
回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:
- 加利福尼亚州一栋房产的价值是多少?
- 用户点击此广告的概率是多少?
分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:
- 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
- 这是一张狗、猫还是仓鼠图片?
- 什么是(监督式)机器学习?
简单来说,它的定义如下:机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。
- 训练与损失
训练模型表示通过有标签样本来学习(确定)所有权重和偏差的理想值。在监督式学习中,机器学习算法通过以下方式构建模型:检查多个样本并尝试找出可最大限度地减少损失的模型;这一过程称为经验风险最小化。
损失是对糟糕预测的惩罚。也就是说,损失是一个数值,表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确,则损失为零,否则损失会较大。训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。
一般地,训练可以是为一组离散点做曲线拟合找到一个函数使其尽可能满足所有点,而对于每个预测点和实际点的方差之和则是损失(平方损失,L2损失)。
- 降低损失的方法
- 梯度下降法, 计算数据集中所有样本的梯度
- 随机梯度下降法,计算数据集中一个样本的梯度
- 小批量梯度下降法,计算数据集中一小部分样本的梯度,差不多10-1000个样本