1. 有时候单一高斯分布不能很好的描述分布
- 上图左面用单一高斯分布去描述,显然没有右图用两个高斯分布去描述的效果好。
2. 引入混合高斯分
这里插一句,为什么是“高斯混合模型”,而不是别的混合模型,因为从中心极限定理知,只要K足够大,模型足够复杂,样本量足够多,每一块小区域就可以用高斯分布描述。而且高斯函数具有良好的计算性能,所GMM被广泛地应用。
- 单一高斯分布公式
mathrm{N}(mathrm{x} ; mu, Sigma)=frac{1}{(2 pi)^{D / 2}} frac{1}{(|Sigma|)^{1 / 2}} exp left[-frac{1}{2}(x-mu)^{T} Sigma^{-1}(x-mu)right]
- 混合高斯分布
- 每个GMM由K个高斯分布组成,每个高斯分布称为一个组件(Component),这些组件线性加成在一起就组成了GMM的概率密度函数:
mathrm{p}(mathrm{x})=sum_{k=1}^{K} p(k) p(x mid k)=sum_{k=1}^{K} pi_{k} Nleft(x mid mu_{k}, Sigma_{k}right)
image.png
- 如上图,我们用三个高斯分布去描述一个二维的数据。