特别说明:本节【SAS Says】基础篇:读取数据(上),用的是数说君学习《The little SAS book》时的中文笔记,我们认为这是打基础的最好选择。
上两节
- 【SAS Says】基础篇:SAS软件入门(上)
- 【SAS Says】基础篇:SAS软件入门(下)
本节目录:(老手建议复习一下)
读取数据(上)
2.1 将你的数据放入SAS
2.2 用Viewtable窗口输入数据
2.3 用导入向导(Import Wizard)读取文件
2.4 告诉SAS你的原始数据在哪
2.5 List input 读取空格分开的原始数据
读取数据(上)
2.1 将你的数据放入SAS的方法
你可能有各种形式的数据,包括手写在纸上、存放在电脑上、或是在数据库管理系统里,不论如何,总有一种方法可以让SAS来读取。
SAS读取的数据的方法主要有以下几种类型:
- 直接输入;
- 从原始数据文件中创建一个SAS数据集(creating SAS datasets from raw data files);
- 将其他软件中的数据文件转换成SAS数据集;
- 直接读取其他软件的数据集;
直接输入
- Viewtable窗口可以让你以表格形式输入数据,可以定义变量、设置属性,如name、length和 type(character or numeric).
- SAS 企业向导模块,a Windows onlyapplication,has a data entry window that is very similar to the Viewtablewindow.As with Viewtable,you can define variables and give them attributes.
- SAS/FSP 模块,是Full ScreenProduct的简称,可以设计定制的数据输入窗口,也有检测数据输入错误的功能(The SAS/FSP product is licensed separately from Base SAS software.)。
从原始数据文件中创建一个SAS数据集 你有两种方法读取原始数据文件:
- 数据步可以读取任何形式的原始数据文件,这种方法还将在2.4中详解。
- 导入向导(Import Wizard)、导入过程(IMPORTprocedure)适用于UNIX、OpenVMS和 Windows操作环境的简单方法,可以读取CSV(comma-separated values)和其他一些限定的文件类型。
将其他软件中的数据文件转换成SAS数据集 如果数据在一个软件中以某种格式存放,但需要用另一种软件分析时,就会很麻烦。有几种方法可以将某种软件中的数据转换成SAS数据集:
- 如果安装SAS/ACCESS模块,可以用导入过程(importprocedure)和导入向导(Import Wizard)将Excel、Lotus、dBase和Access文件导入SAS数据集,见2.3和2.17(?)。
- 如果没有安装,可以用存放数据的软件创建一个原始文件,并用数据步或导入过程(import procedure)读取。很多软件都可以创建CSV文件。
- Windows操作环境下也可以用动态数据交换技术(Dynamic Data Exchange,DDE),见2.18。前提是必须有一个其他的Windows程序与SAS同时运行,再使用DDE和数据步。
直接读取其他软件的数据集
- SAS/ACCESS产品可以不用转换数据格式读取数据,并适用于大部分大部分数据库管理系统,包括ORACLE,DB2,INGRES和 SYBASE(但使用方法本书没有介绍)。
- 使用Excel engine和Access engine来读取这两种类型的数据。(SAS帮助文档)
- 还有其他的一些数据引擎(data engines)来读取数据,如SPSSengine(附录D),查找帮助文档找到适合你操作环境的所有有效engine。
2.2 用Viewtable窗口输入数据
调用Viewtable窗口,在工具栏的下拉菜单中选择表编辑器(Table Editor)。
列属性窗口 每一列顶部的字母是默认的变量名,右击变量名,即可打开列属性(column attributes)窗口,设置属性之后,点击应用(apply),设置完后关闭即可。
输入数据
保存表 选择文件(file)——另存为(save as),选择一个逻辑库保存,如果想保存在新的逻辑库,点击创建新逻辑库图表(New Library),输入逻辑库的名字和保存路径。
打开一个已有的表 首先打开表编辑器,选择文件(file)——打开(open)。打开之后,SAS默认的是浏览模式,如果要对数据进行编辑,则要在编辑(edit)菜单中选择编辑模式。也可以在资源管理器窗口中双击打开一个已有的表。
其他功能 其他一些功能包括排序、打印(printing)、增加和删除行、一次浏览一行(窗体视图Form View)、一次浏览多行(表视图 TableView)。图标和菜单都可以选择这些功能。
在SAS程序中使用表 如下程序语句可以将表内容输出打印:
PROC PRINT DATA=Sasuser.coffee;
RUN;
2.3 用导入向导(Import Wizard)读取文件
导入向导会浏览你的文件以决定变量的类型,并默认数据表的第一行存放变量名。
第一步,从文件(file)下拉菜单中选择导入数据(import data)导入向导(ImportWizard)
第二步,从standard datasources中选择要导入的数据类型。以commaseparated values(*.csv)为例。点击下一步
第三步,指定要导入的文件位置,SAS默认第一行存放变量名,从第二行开始存放数据。Options可以改变这种默认选择。
第四步,选择数据集要存放的逻辑库,并为数据集取一个名字(member)
最后,导入向导创造一个proc import语句,可以是SAS再次导入这个数据。
另外,对于一些类型的数据文件还有额外的步骤,比如Microsoft Access文件,你需要输入数据库名和药导入的表名,有时甚至还要输入user的ID号和密码。
在SAS程序中使用导入数据 比如你将数据存放在work逻辑库,并署名为flowers,那么你可以这样来输入它:
PROC PRINT DATA=WORK.flowers;
RUN;
由于work是默认的逻辑库,所以也可以直接这样:
PROC PRINT DATA=flowers;
RUN;
2.4 告诉SAS你的原始数据在哪
如果数据是原始数据(比如text,ASCII,sequential,flat files),那么用数据步来读取能带给你最大的灵活性。但首先你要告诉SAS你的原始数据在哪。
原始数据可以通过文本编辑器(text editors)或系统命令。对PC使用者来说,原始数据没有相关联的应用程序(就像doc文件与word相关联,双击doc程序就默认调用word程序以打开),有时他们会与像Microsoft Notepad这样的简单编辑器相关联。
内部原始数据 如果直接将数据输入SAS程序中,那么数据就是SAS内部数据。DATALINES是一个指示,告诉SAS下面跟着是数据行,直到分号结尾,这个分号可以另起一行,也可以接在数据的后面。也可以用card代替DATALINES。下面是一个程序,这个程序创建了一个USPRESIDENTS数据集。(Input语句还将在2.5和2.15中讨论)
外部原始数据 数据外SAS程序外部时,使用INFILE语句告诉SAS外部数据的文件名和存放路径,它在data语句之后,在INPUT语句之前。INFILE后面的文件名和路径要用引号,各种系统的引用方式各不同:
假设有一个President.dat数据在你的C盘的MyRawData目录中,
那么可以用如下方式引用这个外部数据:
SAS日志 读取外部数据时,SAS日志会给一些很有用的信息,检查这些信息可以解决一些问题,比如对比INFILE语句读取的记录数和数据集中实际观测值,可以确定SAS是否正确的读取了数据。上面程序的日志如下图所示,
过长记录 在一些操作环境中,SAS假定外部数据文件的记录长度为256或更少(记录长度是指某行中的字符数,包括空格),如果长度过长,SAS不能读取全部,此时需要在INFILE语句中使用LRECL=来指定长度,这个长度必须是数据中最长行的长度,如:
INFILE’c:MyRawDataPresident.dat’LRECL=2000;
可以通过SAS日志来查看最大记录长度。
2.5 list input读取空格分开的原始数据
如果原始数据都至少被一个空格分开,那么用list input读取数据可能是正确的。Listinput是一个很简单的读取数据的方式,但是会受到很多限制。你必须读取所有的数据记录,不能跳过某些值、缺失值必须用句号“.”代替。字符串数据不能包含空格、长度不能超过8个字符。而且如果数据文件包含日期变量或者其他需要特别处理的变量,list input将不再适用。虽然很多限制,但仍有大量的文件可以用这种方式读取。
INPUT语句是数据步的一部分,它告诉SAS如何读取原始数据。使用List input来写input语句:在INPUT关键词之后列出变量名(按照变量在文件中出现的顺序),变量名长度在32个字节(含)以下,只能包含字母、下划线和数据,并必须以字母或者下划线开头。如果变量是字符串,后面要价“$”号,值与值之间至少有一个空格,语句要以分号结束。如:
这表明输入三个变量,其中name是字符串,age和height是数值变量。
例子 你想组织一次青蛙跳跃比赛,现在你记录了每只参赛青蛙的名字、体重、和三次跳跃的距离,如果某次的跳跃距离不合格,那么就用“.”代替,数据文件ToadJump.dat形式如下:
虽然不是很整洁、但满足list input的所有要求(字符串长度小于8个字节、不包含空格、值之间都有至少一个空格,缺失数据也用句号代替)。Nosiy的数据溢出到第二行了,但这不影响,SAS会按照变量顺序自动跳到下一行读取。如下是读取这个数据的SAS程序:
Input后面是变量名,ToadName是字符串变量,其他是数值变量;proc print过程用来输出数据集中所有的变量和观测值;title语句用告诉SAS输出顶部的标题,如果不指定标题,SAS将以“the SAS system”作为标题在每一页的顶部。输出的形式如下:
由于Noisy的数据溢出到下一行,因此下面的说明会出现在SAS日志上: