未分组数据-直方图
数值型数据表现为数字,在整理时通常进行数据分组。分组是根据统计研究的需要,将数据按照某种标准分成不同的组别。直方图是用矩形的宽度和高度来表示频数分布的图形。用横轴表示数据分组,纵轴表示频数或频率。 例9 某地1993年抽样调查了110名18岁男大学生的身高(cm)资料。现在关注的指标是身高的分布。 SAS程序:
引用: |
---|
data height; input height@@; cards; …… ; proc capability ; histogram height / cfill=gray; run; |
未分组数据-茎叶图 对于未分组的原始数据,我们可以用茎叶图来显示其分布的特征。茎叶图由“茎”和“叶”两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如分布是否对称,数据是否集中,是否有极端值等。 例10 将20名钩端螺旋体病人的血清随机分为两组,分别用标准株和水生株做凝溶试验,测得稀释倍数如下: 标准株:100 200 400 400 400 400 800 1600 1600 1600 3200 水生株:100 100 100 200 200 200 200 400 400 用茎叶图初步考察标准株的分布。 SAS程序:
引用: |
---|
data beishu; input beishu@@; cards; 100 200 400 400 400 400 800 1600 1600 1600 3200 ; proc univariate plot; var beishu; run; |
未分组数据-箱线图 箱线图是由一组数据的5个特征值绘制而成的,它由一个箱子和两条线段组成。5个特征值依次是最大值、上四分位数、中位数、下四分位数和最小值。通过箱线图,可以反映出数据分布的特征。 箱线图一般有单批数据箱线图和多批数据箱线图两种。 1) 单批数据箱线图 例11 同例10数据,用箱线图初步考察标准株的分布。 SAS程序:
引用: |
---|
data beishu; input beishu@@; datalines; 100 200 400 400 400 400 800 1600 1600 1600 3200 ; proc univariate plot; var beishu; run; |
2) 多批数据箱线图 对于多批数据,我们可以将各批数据的箱线图并列起来,从而进行分布特征的比较。 例12 同例10数据,用多批数据箱线图初步比较标准株、水生株的的分布。 SAS程序:
引用: |
---|
data beishu; input type$ beishu@@; cards; A 100 A 200 A 400 A 400 A 400 A 400 A 800 A 1600 A 1600 A 1600 A 3200 B 100 B 100 B 100 B 200 B 200 B 200 B 200 B 400 B 400 ; proc format; value $tt A='标准株' B='水生株'; proc boxplot; plot beishu*type; format type $tt.; run; |
未分组数据-散点图 表示两种事物变量的相关性和趋势。医学上常用于观察两种生理指标之间的动态变化关系,或临床上两项检测结果之间的量变关系。 例13 某地抽样调查了31名18岁男大学生的体重(kg)和肺活量资料。现在关注的指标是体重和肺活量之间的相关性。 SAS程序:
引用: |
---|
data wo; input weight oxygen@@; cards; …… ; proc gplot; plot weight*oxygen; run; |
时间序列数据-间隔图形 当观测按日期或时间排列时,数据就构成时间序列数据。我们一般采用“Timeplot”过程对一个或几个变量绘制时间间隔的散点图。间隔图形的类型一般有单个变量的间隔图形和多个变量的间隔图形两种。 1) 单个变量的间隔图形 例14 现有1940-1974年间美国和全世界的肺癌死亡率数据[2]: 1940 1950 1960 1965 1970 1972 1973 1974 美国 12.6 10.0 14.2 15.0 10.2 13.7 13.0 11.5 世界 31.2 30.6 46.2 55.0 53.6 62.9 63.3 64.3 用间隔图形初步考察美国的死亡率分布。 SAS程序:
引用: |
---|
data cancer; input year us@@; cards; 1940 12.6 1950 10.0 1960 14.2 1965 15.0 1970 10.2 1972 13.7 1973 13.0 1974 11.5 ; proc sort; by year; proc timeplot; plot us; id year; run; |
2) 多个变量的间隔图形 例15 同例15数据,用间隔图形初步比较美国和世界的死亡率分布。 SAS程序:
引用: |
---|
data cancer; input year us world@@; cards; 1940 12.6 31.2 1950 10.0 30.6 1960 14.2 46.2 1965 15.0 55.0 1970 10.2 53.6 1972 13.7 62.9 1973 13.0 63.3 1974 11.5 64.3 ; proc sort; by year; proc timeplot; plot us world/overlay; id year; run; |
地域性数据-统计地图 利用SAS的GMAP可以在地图上制作二维或三维的统计图,直观地显示地区性的 差异。 例16 绘制截至2003年6月1日SARS确证病例各省分布图。
引用: |
---|
data sars; input id idnumber $ ill@@; cards; 2 beijing 2521 9 heibei 215 22 shanxi 450 19 neimenggu 284 18 liaoning 6 24 shanghai 8 26 sichuan 19 13 hubei 7 6 guanxi 22 28 tianjin 175 17 jilin 35 5 guangdong 1511 15 jiangsu 7 4 gansu 8 1 anhui 10 25 shanxi 12 32 zhejiang 4 11 henan 15 16 jiangxi 1 20 ningxia 5 23 shandong 1 3 fujian 3 14 hunan 6 10 heilongjiang 0 29 xinjiang 0 31 yunnan 0 30 xizang 0 21 qinghai 0 7 guizhou 0 8 hainan 0 ; proc sort; by id; proc sort data=maps.china2 out=maps; by id; data both; merge maps sars; by id; proc gmap data=both; id _map_geometry_; block ill /midpoints=0 to 2600 by 500; run; |
综上所述,虽然统计软件SAS能够帮助我们绘制各种类型的统计图,但是不同类型的统计图是不能混用的,必须遵守一定的原则和要求,所以我们在作图前要搞清楚数据类型、所适用的统计图,然后再运用相应的SAS程序作图。