【统计学&机器学习】假设检验的集成方法讨论

2024-03-06 15:20:50 浏览数 (1)

本文是西南财经大学刘耀午教授所撰写。为大家介绍他近期发表在JRSSB上的工作。

1. 集成的想法

在机器学习里,集成学习是一类被广泛成功应用的方法,其中比较著名的算法有随机森林(Random forest)和提升算法(boosting)等。

集成想法非常的自然,即把一些弱学习器组合起来构成一个强学习器,类比于俗语里的“三个臭皮匠,顶个诸葛亮”。

集成学习算法主要是用于做预测。一个很有意思的问题是可否把集成想法也用于统计假设检验里,即把一些弱检验组合成一个强检验。事实上,在假设检验文献里,已经有不少检验方法都隐含了集成的想法,比如各种omnibus 检验,都可以看成是检验的集成。

集成这个词有着非常广泛的含义。Omnibus 检验主要是把不同类型的检验做集成。而像随机森林和提升算法等集成学习中的著名方法,它们是把同一类型的学习器(比如,树模型)做集成。因此,在我们这篇文章里,主要是模仿随机森林的形式,来探索把同一类型的检验(比如,线性检验)做集成。

2. 一个检验集成框架

仿照集成学习的框架来构建集成检验的框架是很简单直接的,即把一些基检验(base test)组合起来构成一个集成检验(见图1)。

但要让该框架可以落地应用,我们有两个主要问题需要解决:一是如何构造基检验,二是如何把不同检验组合起来。

关于第一个问题,我们仿照随机森林的形式,在某一类型的检验统计量

T_{mbox{stat}}

里引入一些随机元素

Theta_i

来得到不同的基检验。具体的

T_{mbox{stat}}

Theta_i

的选择需要根据检验问题而定,我们在后面具体讨论。

关于第二问题,由于不同基检验都是应用到同一个数据上,它们的p值是有相依性的。因此,我们这里利用ACAT方法【1】来组合有相依性的p值。

图1 集成检验框架

3. 关于效应同方向问题的集成检验方法

方法需要为问题服务。在论文中,我们讨论了几个集成方法可以发挥作用的检验问题。这里我们主要介绍效应同方向问题。

具体地,记

boldsymbol{beta}

为(广义)线性模型中的回归系数向量,我们检验的原假设为

H_0: boldsymbol{beta}=0

,备择假设为

H_a: boldsymbol{beta}≠0

且所有的非零回归系数有相同的符号。

此类备择假设常来源于遗传中的情形,比如在一个DNA片段里,与某个疾病有关联的遗传变量(SNPs)往往是同时起保护作用,或者同时起有害作用,即效应同方向。

此类备择假设的主要困难点在于参数空间带有约束,使得从理论上推导某种意义下的最优检验比较困难。

这里我们利用集成方法来处理参数空间的约束。把(广义)线性模型进行适当简化后,可以得到多元正态模型

boldsymbol{S}sim N_p(sqrt nSigma boldsymbol{beta},Sigma)

,其中

Sigma

是由设计矩阵(design matrix)得到的协方差阵。

一般线性检验具有如下形式:

T=boldsymbol{w}^T boldsymbol{S}

,其中

boldsymbol{w}

是一个单位向量,表示线性检验中的权重。如果w与备择假设下真实的

boldsymbol{beta}

的方向

boldsymbol{w}_boldsymbol{beta}=boldsymbol{beta}/|boldsymbol{beta}|

一致,那么该线性检验有着最优的功效。

效应同方向这一约束意味着

boldsymbol{w}_boldsymbol{beta}

是在

mathbb{R}^p

的第一象限的球面上,记为

S_p^

。我们的方法是在

S_p^

中随机抽取

B

个权重向量,从而得到

B

个线性检验。从

S_p^

中抽取刻画了备择假设下的参数约束,采取随机抽取则反映了对于

boldsymbol{w}_boldsymbol{beta}

在该参数空间的同等无知。

最后,再根据前面讲的集成检验的框架,把所有的线性检验组合起来得到最终的集成检验。在理论上,我们可以在Bahadur efficiency的意义下证明该集成检验的最优性。

4. 基检验个数B的选择

在第2节的集成框架里,我们还遗留一个关于基检验个数B选择的问题。这看似是一个小问题,但对于实际落地应用(即计算量)至关重要。

在随机森林里,我们可以通过画一个测试误差随树的数量变化的图,来直观地看需要多少棵树。

这一直观方法对于随机森林计算上的可行性发挥了重要作用(试想一下如果采用交叉验证选择树的个数的计算量)。

在我们集成检验的框架里,我们也可以画一个p值随着检验个数B变化的图,看p值在什么时候变得稳定,来直观地选择B。

5. 总结

在论文中还介绍了针对其它几个检验问题(比如稀疏信号)的集成检验方法。

与集成学习一样,集成想法在检验中也是非常符合直觉的。因此,我们期待在以后的研究中,集成方法可以在更加广泛的检验问题中发挥作用。

参考文献

  1. Liu, Y. and Xie, J.(2020). Cauchy combination test: a powerful test with analytic p-value calculation under arbitrary dependency structures. Journal of the American Statistical Association. 115(529), 393-402.
  2. Liu, Y., Liu, Z., and Lin, X. (2024) Ensemble methods for testing a global null. Journal of the Royal Statistical Society: Series B (Statistical Methodology) .Published online.

0 人点赞