大家好,又见面了,我是你们的朋友全栈君。
上期小统和大家一起了解了STATA数据处理技巧与计量分析的背景介绍,这期小统和大家一起学习一下基本语句介绍。
Stata操作界面
核心功能 (do file) Stata中的命令集合文件,在编程语言中成为脚本(scripts),是指为达到某一分析目的进行的数据读取、数据处理、分析等的命令集合。
Stata的基础语法
基本语法结构:
funName variable/(var list) if/in, by() other options
generate newVar=var1/var2
summarize var1 var2 newVar if group==1
regress indepVar depVar1 depVar2 depVar3,robust
•任何的实证分析,收集到的数据形形色色,格式不一。
•因此,很多时候,数据清洗或者初步的数据处理成为了最重要的环节。。。
数据导入与保存:
help insheet //可以导入csv或者txt数据文件(常用)
help import excel //导入excel文件(常用)
help import sasxport //导入sas文件(少用)
help use //导入dta文件(常用)
help save //保存为dta数据文件
eg:
insheet using “dataset.csv”,clear
import excel “dataset.xls”,firstrow sheet(Sheet1) clear
use dataset.dta,clear
save dataset2.dta,replace
数据处理常用命令:
help gen //赋值、计算变量(加减乘除、乘方,逻辑运算)
help egen //可以计算任何描述统计指标、分组。常与bysort组合使用,功能非常强大!
help replace //替换数据,常结合if使用
help destring //数字变量处理
help encode //对个体变量进行编号,分组变量或者面板数据常用
eg:
gen newVar=var1/var2 //两个变量相除
gen Year2017=(year==2017) //2017年的虚拟变量设置
egen meanVar=mean(var) //求某一个变量的均值
bysort industry:egen meanVar=max(var)
replace var1=0 if var1==. //把var1为缺失值的赋值为0
destring var1,replace //把文本格式的变量转化为数值变量
encode Stkcd,gen(Stkcd1) //个体数据进行数值化(编号)
数据探索命令——计量分析第一步
help summarize //描述统计(观测数、均值、标准差、最小值、最大值)
help tabstat //更为常用,可以自定义统计指标,并导出到excel
help winsor //缩尾处理,每次只能处理一个变量
help winsor2 //外部缩尾处理命令,更为方便,可多变量处理。
help scatter //绘制两个变量之间的散点图
help pwcorr //计算相关系数表格
eg:
sum var1 var2
tabstat var1 var2,stat(mean n sd max min median) c(s)
winsor2 var1 var2,replace cuts(1 99)
scatter y x
pwcorr var1 var2 var3,sig //报告p值
pwcorr var1 var2 var3,star(0.05) //把p值小于0.05的用*标记
小结:
•全部的处理都可以菜单式操作,但是不建议用。除非在你忘记命令如何写或者某些option不知道如何写的时候。
•对于任何指标的计算,本课程介绍的命令基本上可以解决90%以上。多思考。多层bysort egen能发挥你意想不到的威力。
•数据清洗是每次实证分析的最基础最重要最耗时的一步,你的目标是把数据集中全部红色的变量变为蓝色或者黑色。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/149316.html原文链接:https://javaforall.cn