传统特征选择(非因果特征选择)和因果特征选择是两种不同的特征选择方法,它们在目标、方法和应用场景上有所区别。
本文分享的内容来自论文:Yu, K., Liu, L., & Li, J. (2021). A unified view of causal and non-causal feature selection. ACM Transactions on Knowledge Discovery from Data (TKDD), 15(4), 1-46.
一、传统特征选择
传统特征选择(非因果特征选择)。定义:传统特征选择,也称为非因果特征选择,主要关注于从原始特征中识别出对预测模型构建或数据理解有用的特征子集。这类方法不考虑特征之间的因果关系,而是通过评估特征与目标变量之间的相关性来进行选择。
特点:
- 基于相关性:传统特征选择方法通常基于特征与目标变量之间的相关性或依赖性来评估特征的重要性。
- 快速处理速度:有些方法独立于预测模型,因此可以快速处理大量数据。
- 无因果解释:这些方法并不提供关于特征如何影响目标变量的因果解释。
优点:
- 计算效率高,适合处理大规模数据集。
- 实现简单,易于理解。
不足:
- 可能忽略特征之间的潜在因果关系。
- 在某些情况下,可能无法提供最优的特征子集。
应用场景:
- 适用于数据预处理和特征维度约简。
- 用于各种机器学习任务,如分类、回归和聚类。
二、因果特征选择
因果特征选择。定义:因果特征选择关注于识别目标变量的马尔可夫毯(Markov Blanket,MB)作为特征子集。马尔可夫毯包括目标变量的直接原因(父节点)、直接结果(子节点)和其他父节点的子节点(配偶)。这种方法通过考虑特征之间的局部因果关系来选择特征,从而促进更可解释和稳健的预测建模。
特点:
- 基于因果关系:因果特征选择考虑特征之间的因果关系,而不仅仅是相关性。
- 理论最优:理论上,找到的目标变量的马尔可夫毯是最优的特征子集。
- 提供因果解释:能够提供关于特征如何影响目标变量的因果解释。
优点:
- 能够提供因果解释,有助于理解数据背后的机制。
- 在某些情况下,能够找到最优的特征子集,提高模型的预测性能。
不足:
- 计算成本高,尤其是在数据集维度高且有限数据样本的情况下。
- 需要可靠的方法来测试特征之间的独立性,这在实际应用中可能是一个挑战。
应用场景:
- 适用于需要因果解释的领域,如生物信息学、医疗诊断和社会科学。
- 可以用于提高预测模型的可解释性和稳健性。
三、小结
利用贝叶斯网络框架和信息论,研究者揭示了因果和非因果特征选择方法的共同目标:寻找类属性的马尔可夫毯,即理论上最优的分类特征集。他们对因果和非因果方法在寻求最优特征集时所做的假设进行了分析,并将这些假设统一地映射到贝叶斯网络模型的结构限制上。通过广泛的实验,包括合成数据和各种真实世界数据,研究者提供了对因果和非因果方法之间关系的实际理解,并推导出了两种方法的误差界限。
在实际应用中,由于简单高效,传统特征选择方法得到了广泛应用,特别是在处理大量数据而计算资源有限的情况下。然而,在需要深入理解特征与目标变量之间因果关系时,因果特征选择方法则提供了更深层次的洞察。尽管因果特征选择在数据集较小、维度较高时可能遭遇计算瓶颈,但传统特征选择方法则不受此限制。总的来说,在需要因果解释的场景,如疾病基因的识别或政策效果的评估中,因果特征选择具有显著优势。然而,在数据预处理和快速模型构建等场景中,传统特征选择方法可能更为合适。