主成分与聚类能否自由切换?
分析架构中常常会涉及到主成分分析的环节,我常常会想,这部分主成分分析能不能用聚类分析去替代呢?结论是不能~
首先,两者强调的重点不同,聚类分析强调的是列与列之间的整合关系,其强项是抽象因子的提取,而主成分分析并不擅长因子的解释,其强项为压缩技术。
其次,如果分析架构中嵌入了聚类分析,则很难进行新样本的预测,数据流转到此环节,分析便戛然而止,数据无法继续向下流动,这种情况便导致嵌入聚类分析的目标不再是新样本的预测,转而变成了老样本的预测,并且解决的是结构性的问题;如果分析架构中嵌入了主成分分析,则此环节的分析虽可以对新老样本进行预测,但是却无法解决结构性的问题。
我将他们理解为完全不一样的分析手段。
data analyst
到底用哪个?
聚类分析与主成分分析的分析目的、侧重点不同:
- 如果分析目的是构建规则与规则筛选,则聚类更为适用;
- 如果分析目的是预测样本,则主成分分析更为适用。
data analyst
神仙眷侣的主成分与神经网络
主成分与神经网络CNN结合即为主成分神经网络,他们既有相似的地方,也有互补的地方。
相似之处,例如,主成分与神经网络都可以进行新老样本的预测,主成分不擅长解释X之间的关系,没关系,神经也不擅长,神经网络甚至根本无法解释模型中间的暗箱技术;
互补之处,例如主成分解决的就是列的压缩问题,而神经网络对于样本列的压缩求之不得,正好,一拍即合。
所以啊,主成分与神经网络真的是天造地设的一对儿,主成分中最具有代表性的并不是主成分回归,而是主成分神经网络。
data analyst
主成分与决策树方法相克
通常,很少将主成分与决策树结合使用。
决策树专攻结构性问题,然而结构性问题却不是主成分的强项,决策树与主成分结合后虽可以解决预测性的问题,但是与神经网络CNN、logistic相比,效果一定是大打折扣。究其原因在于决策树对于X的要求更加苛刻,X的数量不能过多,而神经网络则对变量的数量无过多限制,因此决策树与主成分相结合并不能对新样本进行预测。
所以主成分与决策树很少一起使用。
data analyst
主成分如何预测新样本?
主成分预测新样本并不复杂,下图是基本的预测流程。
即:
- 通过带Y的原始数据生成碎石图,确定主成分的个数,并保存主成分结构;
- 利用主成分结构对新样本进行处理,目的在于得到新样本的主成分分值;
- 将主成分结构封装成模型,对新样本的主成分分值进行预测,从而得到最终的预测概率。