统计学习的三个招式：模型、策略和算法 | 山人聊算法

李航老师在统计学习方法中讲到：方法=模型策略算法

可以说模型、策略和算法是统计学习的三个重要因素，确定了三个要素也就确定了整个方法。也就是说建模的基本框架就定下来了。

这里要说一下，三要素确定了建模的基本框架，但我们要得到的最终模型还有数据集、模型评估与选择等问题。

三要素的概念简述如下：

一个炒股的故事

我们的目标是找到一只股票的价格变化规律。

模型：经过分析我们认为这个规律应该是一个多项式函数，那么多项式函数中参数的所有可能性加起来比如有十万种可能性，那么这十万个可能的函数就是模型的假设空间。
策略：我们最关心的是预测股价和将来的真实股价之间越接近越好，那么模型的预测输出与真值的误差就越小越好，这里衡量误差大小的方法有很多种，比如选择一个点的误差，还是一段时间内多个点的平均误差，还是误差的均方根等等。

不同的衡量方式会带来模型拟合程度、泛化能力的不同。

在监督学习问题中，通常用到的有经验风险最小化和结构风险最小化。策略通常就是经验风险和结构风险最优化问题。

算法：那么如何解这个最优化问题，即如何利用数据集，寻找结构风险最小的多项式函数就是算法问题。比如我用穷举法计算，就是不停的试所有可能的参数从1次多项式一直到100次多项式，每个参数全部试一遍，这也是一种算法，当然效率很低。算法主要有

通常的算法有解析法和数值法。数值法中的迭代优化方法比较常用，在神经网络中的随机梯度下降就是一种迭代优化求解的过程，存在了尝试的意思在里面，步长等很多设置都是经验性设置没有明确的理论指导，但是非常有效。

再打一个粗略的比方

我们要找到一支非常有潜力的股票。

模型：我们将有潜力定义为十年后价格上涨十倍，那么所有可能十年后上涨十倍的股票就是模型的假设空间。
策略：我们定义十年上涨十倍的股票的寻找标准就是盈利能力高、被低估值的股票，那么找到了这样的股票就是找到了我们要的潜力股，策略就定下来了。
算法：A股中有一千多只股票，我们怎么找呢？一个个去试是一种算法；先把高盈利的找出来，再看看哪些被低估了也是一种算法；还可以先计算低估值股票有哪些，再找其中高盈利的是哪些还是一种算法等等。

主要模型、策略和方法

简要总结：

模型决定了建模方向是否正确，即模型空间中是否存在我们要的那个。

策略决定是否有可能找到最优模型，策略错误可能导致无法收敛。

算法决定了计算效率的高低，与之相关的计算成本、时间都是不一样的。

下面直接罗列一下监督学习中的主要模型、策略和方法有哪些。

模型：

策略：

算法：

参考资料

0 人点赞

统计学习的三个招式：模型、策略和算法 | 山人聊算法 | 2nd