极大似然估计(Maximum Likelihood)已经在以前的推文中提到过,在那里提到过,Likelihood也是一个概率值,只不过它不同于一般的概率值。
概率是在给定分布的情况下,看样本事件发生的概率,而Likelihood是在已知样本的情况下,此时的分布参数为某一特定值时的发生概率。
以一个上次提到的例子为例:
- 随机询问了7个人喜欢橙色芬达还是紫色芬达,结果4个人喜欢橙色,3个人喜欢紫色。已知人们选择橙色芬达的概率是0.5,那么上述事件的发生概率为:
- 随机询问了7个人喜欢橙色芬达还是紫色芬达,结果4个人喜欢橙色,3个人喜欢紫色。已知上述事件发生,那么"人们选择橙色芬达的概率是0.5"的发生概率为(此概率就是Likelihood):
继续进行Likelihood的计算
那么,如果想要知道"人们选择橙色芬达的概率是0.25"的Likelihood,此值即为
那么,如果想要知道“人们选择橙色芬达的概率是0.57"的Likelihood,此值即为
那么极大似然估计就是似然度最大时的参数估计
按照上述思路,将p值从0到1的Likelihood值全部计算后绘图如下,可以找到Likelihood最大时的p值为0.57,因此0.57即是"人们选择橙色芬达的概率"的极大似然估计。也就是说,已知“随机询问了7个人喜欢橙色芬达还是紫色芬达,结果4个人喜欢橙色3个人喜欢紫色”,那么"人们选择橙色芬达的概率"最应该是0.57。
二项分布的极大似然估计的数理过程如下
PS:极大似然估计在机器学习中使用的比较多,在那里,数据集分为训练集、验证集和测试集,而训练集就是为了获得一个可用的模型,也就是确定好模型中各个参数的值,而这些参数的值就需要极大似然估计来确定。
参考资料:
- StatQuest课程:https://statquest.org/video-index/