1.1实验概述
1.1.1背景及目的
社会弱势性是指个人、家庭或群体因资源缺乏,难以获取充足的食物、良好的住房条件、平等的教育机会、充分的就业机个、适量的社会服务或消费型娱乐活动,从而影响其拥有正常水平的日常生活、消费和娱乐的不平等社会现象。综合中部五省(河南、安徽、湖北、湖南、江西)各地市收入、教育、住房、人口结构等多方面因素、本实验利用主成分分析构建社会弱势性综合评价指数,结合空间自相关分析和聚类分析,研究社会弱势性空间分布格局及分布模式,借助空间回归模型探究社会弱势性与城市化水平间的关系。通过本实验希望达到以下目的:
①理解多维度指标集成的原理和方法;
②了解不同类型的空间权重矩阵对空间自相关分析的影响;
③掌握并运用空间回归模型研究实际问题。
1.1.2数据说明
本实验所使用的数据存储于data_exp1文件夹中,包含的数据内容及其来源见表1.1。
1.1.3 整体实验设计
为了整体把握和描述2010年中部五省社会弱势性的统计特点,可以使用描述性统计的方法,从统计学的角度分析相应社会经济指标表现出的特征。同时,为了研究中部五省社会弱势性的整体空间格局,需要构建一个横向可比的综合指数。由于原始数据中社会经济指标众多,且指标之间具有一定的相关性,可以选用主成分分析的方法进行因子降维和指标聚合。通过对综合指数及各维度上的指数进行空间可视化,可以分析中部五省各地市社会弱势性的空间格局。
为了探究弱势群体在空间上是呈现聚集、离散还是随机分布的模式,通常可以采用全局空间自相关指数Morazn’s I和局部空间自相关指数LISA进行探索性空间分析。值得注意的是,不同的空间权重矩阵可能对自相关指数的结果产生影响,本实验也将一并探讨这些情况。另外,结合聚类分析方法及空间可视化技术研究多维度空间分布特征,对于辨别探究区域中不同研究单元的社会弱势性特征具有重要意义。
对于实验所构建的社会弱势性综合评价指数,可以进一步探究其在城市研究中的应用。本实验探讨的是该指数在城市发展公平性评价中的应用。
1.2实验步骤
1.2.1 探索性数据分析
本次实验采集的社会经济指标主要包括收入、教育、住房和人口结构等多个方面。进行描述性统计的主要步骤如下:
打开SPSS软件,选取原始效据文件存放路径,调整打开的文件类型为Excel文件。打开原始教据表格,在弹出的对话框中,选择从第一行读取变量名(图1.1),点击“确定”按钮。
图1.1读取设置:从第一行读取变量名
可以发现,在SPSS生成的数据中有两个文件,其中.sav格式的是数据文件,.spv格式的是输出统计报表的结果文件。实际应用中,这两个文件都可以保存。点击分析→描述统计→描述,选取需要参与统计的指标,得到统计结果见表1.2。
表1.2描述性统计结果报表 | |||||
---|---|---|---|---|---|
N | 最小值 | 最大值 | 均值 | 标准 偏差 | |
年平均工资 | 71 | 4352 | 10137 | 6880.27 | 1286.559 |
白领比例 | 71 | 7.0915 | 44.4270 | 17.151941 | 6.5165892 |
文盲率 | 71 | 2.28 | 16.40 | 8.8768 | 3.36984 |
中专及以下学历 | 71 | 62.071204 | 84.394518 | 78.09114422 | 3.900370308 |
大专及以上学历 | 71 | .183386 | 5.746629 | .84631008 | .942167311 |
平均受教育年限 | 71 | 6.59 | 9.21 | 7.5966 | .52831 |
无业率 | 71 | 14.866177 | 40.653021 | 24.55475485 | 5.538436538 |
无工作能力人口比例 | 71 | 2.033532 | 6.291910 | 4.43855933 | .835250311 |
住房无厨房 | 71 | 6.037033 | 44.201607 | 16.90575632 | 8.149520874 |
住房无自来水 | 71 | 24.812881 | 94.969805 | 68.10349950 | 16.269818579 |
住房无洗澡设施 | 71 | 42.854730 | 95.722184 | 77.78450249 | 12.190508519 |
住房无厕所 | 71 | 5.905386 | 85.780169 | 31.81652860 | 20.353292378 |
14岁以下人口比例 | 71 | 17.24 | 29.78 | 24.2069 | 2.70224 |
65岁以上人口比例 | 71 | 5.24 | 8.94 | 7.0094 | .84249 |
离婚率 | 71 | .431970 | 1.270625 | .76859959 | .211757560 |
家庭至少有一名65岁以上老人比例 | 71 | 16.210060 | 24.418563 | 20.17880182 | 1.744600775 |
有效个案数(成列) | 71 |
1.2.2综合指数构建
1.数据标准化
首先需要对分析指标进行极差标准化。
图1.2极差标准化公式
式中,X’ij为第j个指标中第i个数据的标准化结果;Xij为第j个指标中第i个数据;maxXj,和minXj分别为第j个指标中所有数据的最大值和最小值。对于表达的意义与社会弱势性一致的正向指标,采用正向指标对应的公式,同理,负向指标则应采用相对应的公式。在本次综合指数的构建工作中,可以认为能反映弱势性的指标是正向指标,即指标得分越大越弱势。数据标准化可以在Excel中编写公式计算得到,结果如图1.3所示。
图1.3极差标准化结果
2.主成分分析
使用SPSS软件进行主成分分析,下面给出操作流程。
首先将标准化之后的指标载入SPSS分析环境,然后使用分析→降维→因子分析,打开主成分分析面板(图1.4)。选取参与分析的指标,并在面板中勾选需要的设置(图1.5)。
图1.4 SPSS主成分分析面板
图1.5 一种常用的主成分分析参数设置
设置完成后,点击“确定”运行主成分分析模型。输出的报表将导出在后缀为.spv的文件中。对于主成分分析输出的结果,需要关注如下几个关键指标或报表。
1)KMO和Bartlett球形度检验
如表1.3所示,本实验KMO值为0.767,且通过Bartlett球形度检验。这表明变量间有一定的相关关系,适用于使用主成分分析进行指标聚合。
表1.3 KMO 和巴特利特检验 | ||
---|---|---|
KMO 取样适切性量数。 | .736 | |
巴特利特球形度检验 | 近似卡方 | 848.884 |
自由度 | 78 | |
显著性 | .000 | |
2)方差解释报表
从表1.4中可以发现特征值大于1的共有四个成分,累积解释了原始指标82.208%的信息,故上述指标可以由四个主成分来表达原始指标所反映的信息。
表1.4总方差解释 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|
成分 | 初始特征值 | 提取载荷平方和 | 旋转载荷平方和 | |||||||
总计 | 方差百分比 | 累积 % | 总计 | 方差百分比 | 累积 % | 总计 | 方差百分比 | 累积 % | ||
1 | 5.560 | 42.770 | 42.770 | 5.560 | 42.770 | 42.770 | 4.782 | 36.784 | 36.784 | |
2 | 2.736 | 21.048 | 63.818 | 2.736 | 21.048 | 63.818 | 2.190 | 16.850 | 53.634 | |
3 | 1.379 | 10.605 | 74.423 | 1.379 | 10.605 | 74.423 | 1.936 | 14.889 | 68.523 | |
4 | 1.012 | 7.784 | 82.208 | 1.012 | 7.784 | 82.208 | 1.779 | 13.685 | 82.208 | |
5 | .740 | 5.691 | 87.899 | |||||||
6 | .446 | 3.428 | 91.327 | |||||||
7 | .377 | 2.903 | 94.230 | |||||||
8 | .329 | 2.528 | 96.759 | |||||||
9 | .162 | 1.249 | 98.008 | |||||||
10 | .096 | .737 | 98.745 | |||||||
11 | .067 | .512 | 99.257 | |||||||
12 | .055 | .422 | 99.679 | |||||||
13 | .042 | .321 | 100.000 | |||||||
提取方法:主成分分析法。 | ||||||||||
3)旋转成分矩阵
采用旋转成分矩阵能够更好地归纳出因子,一般而言,提取旋转成分矩阵中载荷大于0.7的指标作为对应主成分指标的构成指标,并根据指标构成对指标反映的维度进行概括。
从表1.5中可以发现,第一主成分由白领比例、中专及以下学历、大专及以上学历比例三个指标组成,反映的是收人和教育方面的信息,可以视作社会经济地位弱势性指数;第二主成分主要由65岁以上人口比例和家庭至少有一名65岁以上老人比例两个指标构成,可以视作人口结构弱势性指数;第三主成分由文盲率和平均受教育年限两个指标构成,可以视作受教育程度弱势性指数;第四主成分由住房无厨房和住房无厕所比例两个指标构成,可以视作居住条件弱势性指数。
表1.5旋转后的成分矩阵a | ||||
---|---|---|---|---|
成分 | ||||
1 | 2 | 3 | 4 | |
年平均工资 | 0.691 | -0.060 | 0.402 | -0.141 |
白领比例 | 0.947 | 0.217 | -0.008 | -0.039 |
文盲率 | 0.206 | -0.005 | 0.929 | -0.134 |
中专及以下学历 | 0.875 | 0.220 | 0.224 | 0.131 |
大专及以上学历 | 0.877 | 0.033 | 0.073 | 0.158 |
平均受教育年限 | 0.614 | 0.125 | 0.723 | 0.103 |
住房无厨房 | 0.142 | -0.200 | -0.315 | 0.806 |
住房无自来水 | 0.687 | 0.402 | 0.310 | 0.174 |
住房无洗澡设施 | 0.680 | -0.349 | 0.185 | -0.163 |
住房无厕所 | -0.053 | -0.311 | 0.152 | 0.874 |
14岁以下人口比例 | 0.684 | -0.464 | 0.257 | -0.121 |
65岁以上人口比例 | 0.018 | 0.874 | 0.119 | -0.295 |
家庭至少有一名65岁以上老人比例 | 0.170 | 0.821 | -0.023 | -0.339 |
4)成分得分系数矩阵
相应地,提取成分得分系数矩阵中的系数,结合旋转成分计算得到各主成分得分C1,C2,C3,C4和综合指数(comprehensive indax ci)并导出为.csv文件:
式中为第k个主成分的得分,该主成分共由n个(m可取值为1,2···j···,n)因子载荷大于阈值的指标计算得来;为其中第j个指标对应的在得分系数矩阵中的得分;为其中第j个指标对应的数据。
式中,Cl为综合指数; 为第k个主成分对应的特征值; 为第k个主成分的得分。最后计算得到的综合指数如下图所示。
表1.6 成分得分系数矩阵 | ||||
---|---|---|---|---|
成分 | ||||
1 | 2 | 3 | 4 | |
年平均工资 | 0.117 | -0.089 | 0.104 | -0.109 |
白领比例 | 0.279 | 0.061 | -0.248 | -0.040 |
文盲率 | -0.167 | -0.020 | 0.622 | 0.002 |
中专及以下学历 | 0.186 | 0.111 | -0.038 | 0.106 |
大专及以上学历 | 0.233 | 0.012 | -0.151 | 0.064 |
平均受教育年限 | -0.014 | 0.079 | 0.395 | 0.140 |
住房无厨房 | 0.079 | 0.062 | -0.182 | 0.452 |
住房无自来水 | 0.096 | 0.231 | 0.084 | 0.199 |
住房无洗澡设施 | 0.185 | -0.255 | -0.064 | -0.214 |
住房无厕所 | -0.098 | 0.039 | 0.219 | 0.540 |
14岁以下人口比例 | 0.171 | -0.306 | -0.009 | -0.204 |
65岁以上人口比例 | -0.049 | 0.406 | 0.072 | 0.014 |
家庭至少有一名65岁以上老人比例 | 0.039 | 0.356 | -0.079 | -0.054 |
图1.6主成分得分和综合指数计算结果
1.2.3 空间格局分析
将得到的综合指数利用属性表连接的方法连接到原始的.shp文件上(图1.7),并绘制出相应的地图。打开ArcMap,通过“添加数据”按钮,添加中部五省地级市的.shp数据到内容列表。将上一步得到的主成分得分的.csv文件也添加进来,通过连接面板连接到空间数据的属性表中(图1.10)。
图1.7ArcMap连接数据对话框
对各维度的主成分指标和社会弱势性综合指标进行空间可视化,分级标准可以选择分位数分级法。得到多指数空间分布图如图1.8所示。
在数据标准化过程中,正向指标定义为指标值越大则该项指标越弱势,因此综合评价指数的得分越高表明整体越弱势。从图1.8中可以发现,社会经济地位较为弱势的区域集中在河南、湖北、安徽三省交界的大别山区域和湖南西部,人口结构弱势的区域集中在湖南省西北部,受教育程度弱势区域集中在安徽省大部分地市,居住条件较为弱势的区域集中在湖南省的中南部。综合来看,湖南省西部及安徽省与其他省交界的地市较为弱势。从图1.8中可以发现弱势性是呈现连片分布的,这表明弱势性可能具有一定的空间依赖。为了验证这个猜想,接下来进行空间模式分析。
图1.8各维度弱势性及其综合空间格局
1.2.4空间模式分析
为了探究社会弱势性是否在空间上具有聚集或分散的模式,可以采用空间自相关分析的方法。空间自相关分析是一种探索性空间数据分析方法,包括全局空间自相关分析与局部空间自相关分析。
1.社会弱势性空间分布模式
1)构建空间权重矩阵
空间权重矩阵是空间邻接关系和空间距离关系的直接表达,也是计算全局及局部空间自相关指数前必须定义的必要参数。
在GeoDa中构建空间权重矩阵,需要输入连接各项综合得分的.shp文件。权重文件需要一个唯一ID以标识每个空间点,若原始.shp文件没有提供则需要自行创建。由于空间点数据无法创建基于邻接关系的空间权重矩阵,本实验基于各省市之间的邻接关系自行创建了相应的权重矩阵,并提供了各地市间的基于距离关系和基于邻接关系的多种空向权重矩阵文件。
图1.9GeoDa构建空间权重矩阵(一阶Rook邻接矩阵)
以一阶Rook邻接矩阵的构建为例,如图1.9所示。可以发现,GeoDa支持创建基于邻接关系及基于距离关系的空间权重矩阵,也可以创建一阶甚至高阶的空间权重矩阵,操作方法对于Rook(共边即邻接)和Queen(共边共点即邻接)类型的空间邻接矩阵是相同的[图1.13(a)]。若要创建基于距离的空间权重矩阵,则可以如图1.13(b)所示进行相应的参数设置,GeoDa支持创建基于欧氏距离的空间权重矩阵和基于k近邻的空间权重矩阵。本实验中采用的原始.shp文件的空间参考是GCS2000坐标系,若要创建基于欧氏距离的空间权重矩阵,应选用球面距离的计算选项,而实际上为了计算和表达的简便,通常建议采用具有平面投影的.shp数据作为GeoDa的输人数据。在输出权重文件时,基于邻接关系的空间权重矩阵的文件后缀为“.gal",而基于距离关系的空间权重矩阵的文件后缀是“.gwt",二者均可以使用记事本等软件以文本的方式打开,有兴趣的读者可以参阅相应的操作文档并进一步探究其数据结构及其所代表的含义。对于本次实验提优的数据,只能使用基于距离创建空间权重矩阵,若是矢量面数据,将既可以创建基于距离关系的空间权重矩阵,又可以创建基于邻接关系的空间权重矩阵,就本次实验数据而言,若后续计算需要用到基于邻接关系的空间权重矩阵,可以通过加载随附的数据文件夹中提供的基于邻接关系的空间权重矩阵文件达到相同的效果。
(a)二阶Rook邻接矩阵 (b)基于距离的矩阵
图1.10GeoDa构建空间权重矩阵
2)全局空间自相关分析
在GeoDa中可以采用Space→Univariate Moran's1的操作,并在弹出的对话框中选择社会弱势性CI及相应的空间权重矩阵。本实验将比较一阶Rook邻接矩阵、二阶Rook邻接矩阵、一阶Queen邻接矩阵、二阶Queen邻接矩阵、基于欧氏距离的空间权重矩阵和基于k近邻的空间权重矩阵对计算空间自相关性的影响,如图1.11所示。
结果显示,对于一阶邻接矩阵而言,Rook和Queen两种邻接方式计算得到的全局Moran's1值差异不大,且均表现出一定的空间自相关性;对于二阶邻接矩阵而言,Rook和Queen两种邻接方式计算得到的全局Moran's1值差异不大,且均通过显著性检验,这表明对于社会弱势性综合指数而言,在二阶邻接的水平上其空间自相关性也显著,但Moran'sI指数值有所不同。而对于邻接数据而言,特定阶数时两种邻接方式下所得到的空间邻接矩阵较为相似,使得最终得到的指数值具有一定的相似性。而基于距离构建空间权重矩阵的两种方式计算得到的全局空间自相关指数显示出社会弱势性现象具有一定的空间聚集性。
以上探究表明,采用不同的空间权重矩阵计算 Moran'sI得到的结果是可能产生一定差异的,读者使用相应研究方法时,应酌情选择空间权重矩阵的构建方法。
一阶Queen邻接矩阵(I=0.2378 p=0.01) 二阶Queen邻接矩阵(i=0.0535 p=0.05)
一阶Rook邻接矩阵(i=0.0535 p=0.05) 二阶Rook邻接矩阵(i=0.1172 p=0.01)
基于欧氏距离的空间权重矩阵(i=0.1668 p=0.02) 基于k近邻的空间权重矩阵(邻居去取4,i=0.2379 p=0.01)
图1.11全局空间自相关指数及Moran散点图
3)局部空间自相关分析
为了进一步分析社会弱势性的局部特性,可以计算局部空间自相关指数。按照步骤Space→Univariate Local Moran'sI,选取权重为基于欧氏距离的空间权重矩阵,在弹出的对话框中选择社会弱势性CI及相应的空间权重矩阵,并勾选“Cluster Map”。
图1.12LISA聚类地图
图1.13LISA空间聚类图
结果如图1.13所示,中部五省的东北部地市弱势性得分显示出显著的“高-高”聚集现象,成为各维度较为劣势的地区;而五省中东部地区等地市显示出“低-低”聚集的现象。这表明局部空间自相关指数能揭示全局指数可能掩盖了的空间关系,因此建议读者在实际研究中将二者结合使用,充分探讨。
2.社会弱势性空间类型模式
空间自相关性分析最多只能揭示弱势地区的空间模式,即解决“何处是较为弱势的地区”这样的问题,而无法解释“因何弱势”的问题。接下来,本实验使用聚类分析的方法对各维度弱势性指数进行统计分析。
聚类分析是根据某些数量特征将观察对象进行分类的一种统计方法,能将大量的数据按照各自的特征进行分类。对于每个研究单元,可以使用聚类分析的方法确定其多个弱势性指标的综合特性,最终可以形成一个类型集合,用以描述整个研究区每一研究单元的综合特性。
本实验采用系统聚类的方法进行聚类分析,同样使用SPSS软件进行相应的操作。将计算得到的指数值导入SPSS中,用地域代码PAC进行标识,注意在SPSS中需要将PAC字段的类型指定为字符串类型。
1)聚类分析
在SPSS中依照分析→分类→系统聚类的步骤找到系统聚类分析的操作面板(图1.16)。系统聚类先将各样本各看成一类,通过输人的指标计算类与类之间的“距离”,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的空间单元合为一类为止。
SPSS软件在系统聚类的系列统计报表中输出的树状图直观地表达了这一过程。最左列是各空间单元,横轴是类别间的距离,空间单元依据特征距离组合成为一类,类与类之间再组合成新类,最终所有的类别组合成一类(图1.14)。根据树状图,读者可以选择一定的距离作为阈值,从而将原始的空间单元分割为不同数量的类别。如若以20为距离阈值,则整个空间区域可以分割为两个类别。
这又提出了一个新的问题,那就是如何去选择最合适的距离阈值?换言之就是如何确定较为合适的分类数量?可以借助聚类表进行判断,判断的依据是,相邻的两个数据变化的幅度显著小于前面的系数的变化范围,这时采用这样的聚类个数就是最好的,绘制成图像就是使得聚类系数趋于平缓的类别数。
这里可以选取聚类个数为4类,结合图1.14很容易将4类标识出来。而更简便的方法是按照同样的参数在SPSS软件中再次进行系统聚类分析,并在“保存”选项中指定聚类个数,将聚类个数保存到.sav数据表中。然后在Excel中将聚类分析所得各类别的空间单元在各维度下的均值得分计算出来,作为本类别的平均得分,并依据其均值进行排序。结果在表中的括号中标识出来,排名越靠前,该维度的弱势指数越低,排名1~4的类别分别指定“最低”"、“较低”、“较高”和“最高”的级别,由此可以得到相对应的各类别空间单元的特征模式。
图1.14使用平均连接(组间)的树状图
2)空间可视化
将这一弱势性进行空间可视化可以得到图1.19,从图中可以发现,郑州、长沙、武汉和南昌是较为优势的地区;而湖南南部、安徽大部分地市、湖北东北部和江西中部的地市社会经济地位弱势性、人口结构弱势性、受教育程度弱势性都较高,而住房条件弱势性较低。从图中可以明显发现中部五省的社会弱势性空间分布特征。
1.2.5空间回归分析
社会弱势性指数具有多种城市化应用,这一部分将探究利用普通线性回归和空间回归城市化建设与社会弱势性指数之间的关系。普通线性回归及空间回归均可以使用GcoDa实现。有兴趣的读者也可以尝试在R和MATLAB中进行相应的研究。
将上述计算得到的综合弱势性指数CI连接到.shp数据上,使用GeoDa打开。Urban字段是非农人口比例,收集自城市统计年鉴,是衡量城市化建设成就的一个重要指标。点击GeoDa菜单栏的“Regression”,打开Regression面板。如图1.15所示,将因变量设置为Urban字段,自变量设置为前述的综合弱势性指数CII。
图1.15回归分析面板
1)OLS回归分析
首先进行普通最小二乘(ordinary least squares,OLS)回归,这里选用一阶Queen矩阵作为空间权重矩阵。值得注意的是,OLS回归本不需要输人空间权重矩阵,但这里输人空间权重矩阵可以对模型的空间自相关性进行诊断,因此推荐此处也输入权重矩阵。本实验以一阶Queen权重矩阵作为输入,点击“Run”按钮运行模型。
图1.16是普通最小二乘回归统计报表,结果表明,R²=0.1366,调整R²=0.124,模型中F统计量的P值小于0.001,CII的系数和截距都通过t检验,表明该回归方程整体和回归参数均能通过显著性检验,则CI 与城市化率呈现负的相关关系,表明对于中部五省的各市,社会弱势性越高,城市化率越低。而回归诊断参数Jarque-Bera显著,表明模型误差显示出显著的非正态性,空间自相关性诊断也表明因变量存在高度的空间自相关性,LM Error 是显著的,而LM Lag 不显著。由此可以得出结论:传统的一般线性回归模型并不适用。
图1.16普通最小二乘回归统计报表
2)空间回归分析
同样地,在GeoDa中进行空间误差回归只需要在图1.15的回归面板中的Models一栏选择Spatial Error即可。
图1.17空间误差回归统计报表
图1.17是空间误差回归的统计报表,结果表明,R-=0.192,对数似然指数Log likelihood=-253.12,赤池信息量准则(Akaike info criterion)指数AIC=510.248。同普通最小二乘回归的相应参数比较,可以表现出模型拟合效果的提升,且回归方程回归参教均通过显著性检验,证明这里使用空间误差回归是适用的。
1.3讨论与总结
本实验以构建社会弱势性为主要目的,重点介绍了空间自相关分析、聚类分析和空间回归技术的应用,并利用指标成果进行了社会弱势性空间格局、空间分布模式和空间类型模式的相关分析。本示例实验存在一些问题,主要是数据有限,使得在空间自相关分析中两种邻接矩阵构建方式——Rook和Queen得到的邻接矩阵在邻居数量上差别不大。对于同一目标空间单元,Queen邻接往往会较Rook邻接覆盖更多的邻接空间单元,从而能够反映出更多的信息,但有时也会带来更大的不确定性。而基于距离构建的空间权重矩阵使得邻居数量限制在一定的范围内,从而能够集中反映空间单元及其最邻近的邻居之间的空间特性。这表明,除了样本数量选取之外,从合理角度出发去描述空间关系,往往能更好地表现出要反映的本质特征。