典型相关分析和对应分析
典型相关分析研究两组变量之间的相关问题,采用主成分的思想浓缩信息,根据变量间的相关性.将两组变量的关系集中到少数几对综合变量(观测变量的线性组合)上。
对应分析探究行列变量的关系,它是一种比较特殊的多元统计分析,与我们前而介绍的儿种方法有所不同。对应分析通过由定性变量构成的交互汇总表来揭示变量之间的联系,最大的特点是能把众多的样品和变量同时绘制在同一张图上。
11.1典型相关分析
典型相关,可以用于分析很多实际问题。例如:金触领域,研究宏观经济走势与股票市场走势之间的关系;市场分析方面,研究食品价格与销售量之间的相关性:工业方而,考察原料指标与产品质量之间的相关性,等等。
11.1.1理论基础
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的推广。其采用主成分的思想提炼信息,根据变量间的相关关系,寻找少数几对综合变量(原变量的线性组合)来替代原始观测变量,从而将两组变量的相关关系集中到少数几对综合变量的相关性分析上。
典型相关分析除要求所提取的综合变量尽可能全面地包含原始信息外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。各组随机变量中既可以包含定量变量,也可以包含定性变量。
11.1.2 R语言实现
R中进行典型相关分析的函数为cantor(),其调用格式为
cancor(x, y, xcenter=TRUE, ycenter=TRUE)
其中x和y分别是两组变量的数据矩阵;xcenter和ycenter是逻辑值,表示是否将数据中心化,实际使用中一般均采用默认值TRUE,即将数据中心化后再进行计算。
【例】
在R中进行典型相关分析的步骤是:
①读入原始数据;
②对数据进行标准化处理;
③使用函数cancor()做典型相关分析;
④得出分析结果,对结果进行描述整理:
⑤对结果进行实际含义解释,得出结论。
R提供了执行数据中心化和标准化的函数scale(),其调用格式为:
scale (x,center=TRUE,scale=TRUE)
去除原始数据的第一列(年份)后,第1~4列是第一组变量、第5~8列是第二组变量。在R中输入指令:
> post=read.table("d:/data/post.txt",header=T) > post=post[,-1] #去除第一列(通常为年份或序号) > post=scale(post) #对数据作正态离差标准化 > ca=cancor(post[,1:4],post[,5:8]) > options(digits=4) > ca $cor [1] 0.9984 0.9512 0.4436 0.3557 $xcoef [,1] [,2] [,3] [,4] X1 0.02705 -0.1800 -0.01501 -0.24812 X2 -0.05352 -0.2462 -0.67839 0.08167 X3 -0.13291 1.6587 1.86941 -1.41084 X4 -0.11931 -1.5133 -1.37607 1.38437 $ycoef [,1] [,2] [,3] [,4] Y1 -0.08637 -0.1173 -0.7481 2.2384 Y2 0.06487 1.2353 10.8194 4.7401 Y3 -0.05893 1.1485 -9.3603 -6.8260 Y4 -0.20940 -2.2606 -0.7167 -0.1437 $xcenter X1 X2 X3 X4 1.308e-16 5.658e-17 5.871e-18 -6.192e-17 $ycenter Y1 Y2 Y3 Y4 2.178e-16 7.686e-17 -9.714e-17 -1.183e-16
① $cor给出了典型相关系数,体现了各对典型变量的相关性由大到小的性质。$xcoef和$ycoef分别是典型相关变量对应于原始数据X和Y的典型载荷系数。$xcenter和$ycenter是数据X和Y的样本均值,由于我们事先做了标准化,因此这里是标准化数据的均值。
②根据典型载荷系数,我们可以写出各对典型变量的表达式。根据$cor可知前两对的相关系数r1 = 0.9984, r2 = 0.9512 ,因此说明U1与V1、U2与V2之间其有高度的相关关系,即邮电业越发达,经济形式越好。因此我们可根据前两对典型相关变量来分析邮电业和经济发展的相关关系。
③前两对标准化的典型变量的线性组合是