MLE&MAP
1 概率
常说的概率是指给定参数与模型后,预测即将发生的事件的可能性。
2 似然概率、似然函数
统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数为L(θ|x),似然函数在数值上等价与给定θ后的
概率值相等,所以经常用
来表示似然函数,当给定θ的取值
后,
的概率值,我们称为似然概率。
3 极大似然估计(MLE)
估计量与估计值经常容易混淆,估计量是个变量,比如说人类平均身高u,也可以说是期望,我们经常用
作为估计量,因为抽取的样本的差异,观测样本不同使得每次求取的值不一样,这就成为期望的估计量,估计值是确切的某个值,用观测样本求其均值,可以称为整体期望的估计值。极大似然估计是求取估计值。 极大似然估计步骤:
- 确定数据分布,写出似然函数
- 取log
- 求导取极值,找到极大值点
- 求出估计值 例如
似然函数:联合概率密度函数
,称为数据集D的似然函数
根据极大似然估计,找到是的似然函数最大的参数值作为参数的估计量
两边同时取对数,便于参数求解
求导,如果似然函数可导,则求取导数为0的的点,即可求得参数估计量,如果更严谨的话,似然函数可能并只有一个值为0的点,可能存在拐点,或者极小值点,这个时候需要进一部判断这个点是极大值点还是极小值点还是拐点。
思考一下,为什么极大似然估计要累乘?为什么要取极大值?
我们对库里与追梦格林做统计,发现在库里命中的基本都是三分球,而格林基本没有三分,大多数都是二分球。如果你在吃饭没来得及看电视,突然听见主播说:哇~三分 一箭穿心。你会认为是格林投的还是库里投的?显然这球最有可能是库里投的,因此P('三分'|'库里')>p('三分'|'格林').
因此经过我们分析推断,估计出这球是库里投的。我们根据大量的先验知识来做出猜测,推断出下次命中球的分数观测数据判断最有可能是哪个球员参数造成的。推断的过程其实就是求取估计值的过程。现在我们明白了为什么要对似然函数取极大,即使格林也能投进三分球,但是我认为库里投进机会(概率)最大,所以下次三分球观测数据来了,我就认为是参数库里投的,这是最可能接近真实球员参数的是最似然的。
为什么要累成呢?上面我们只考虑一个观测数据,如果出现一组观测数据:"3,2,2,3,3,3,3".假设这是由对球员一场比赛的进球统计,你会认为这组分数是哪个球员投进的?P(3,2,2,3,3,3,3|球员),同样的思路,既然这组参数能在众多数据组合中出现,我认为它出现的概率最大。
这里可能难以理解,其实可以这样认为,一个事件能够发生说明本身就是大概率事件,发生的就是最可能的,造成这个事件发生的因素就是待估计参数,因此我们可以推断出(计算估计量与估计值)是哪个因素造成了这个事件发生,即使可能不准但是大致差不多(似然)。
因此只要计算P(3,2,2,3,3,3,3|球员)极大值,就可以计算出球员估计量。累成的原因是因为这些数据我们假设是独立同分布的。所以为了计算方便写成累乘。
做个总结,极大似然估计其实就是首先确定,这个事件发生了,那么他的概率比事件发生的概率大,至于是什么造成了它发生的概率大呢?是哪个因素呢?这个过程就是求解估计值的过程。不是因为这个事件的概率大而导致这个参数必须是某个值,而是因为这个值导致了这个事件发生的概率大。
4 最大后验概率估计(MAP)
极大似然估计,估计参数是为了使似然函数P(X|θ)最大(这里X 你可以看作只有一个数的变量,也可以看作数的集合,抽象的看待它),而最大后验概率是为了使得P(X|θ)P(θ)最大。
首先什么是后验概率,先验概率是我们一种假设,假设硬币均匀则正面概率为0.5,这就是先验概率。事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。
这里其实就变成了要求P('分数'|'球员')P('球员')最大,P('三分'|'库里')P('库里'),这里其实多考虑了一个因素,我知道你库里三分准,但是你出场次数也得多吧,如果你出场次数少,那我完全可以认为是格林投的(起到了一定的惩罚作用,这里有正则化的味道,仅仅个人理解),根据贝叶斯公式最大后验概率最大化的是:
因为观测数据已知,所以P(X)是定值,所以可以不用考虑进去。说到这里,当然两者都是估计参数值的方法,我个人觉得还是最大后验概率更能说服我,根据已经观测的数据,求解出是哪个球员参数的可能性最大。
就是求P('球员'|3,2,2,3,3,3,3),哪个球员概率大,我就估计是他。跟我们做分类模型验证有点像,把观测数据看作特征,已知特征造哪个类别造成最大概率则认为是哪个类。
理论的概念理解难免主观性比较强,希望有争议的地方能够提出来一起讨论。