STATA数据管理.pptVIP

下载本文档

87
0
约4.37千字
约 30页
2017-12-04 发布于江西
举报
版权申诉

STATA数据管理.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

STATA数据管理

STATA数据管理李博柏北京大学光华管理学院说明程序文件： --- data.do 生成所有人工数据 --- dataman.do 运行本讲所有数据管理例子 --- program.do “编程入门”程序文件把三个文件拷贝到一个文件夹，打开STATA，用“cd 文件夹路径”把数据文件夹确定为当前工作目录在命令窗口键入: do data, do dataman即可运行所有例子学习要点熟悉STATA重要的数据管理命令了解常见基本数据结构及其用途了解数据管理中的常见问题利用简单的编程解决复杂的数据管理问题基本数据结构介绍横截数据（cross-sectional data）合并横截数据（pooled cross-sectional data）板块数据（panel， longitudinal， or cross-sectional time series data）多层数据（multilevel or hierarchical data）配对数据（matching or pairing data）数据合并数据合并纵向合并：把多个样本简单累加（从cross-sectional 到pooled cross-sectional或）横向合并：把同一样本的不同变量累加交叉合并：把不同样本和不同变量累加（适用于多层数据和配对数据）纵向合并要求变量名要一致变量类型要一致样本序号不要重复（板块数据除外）合并前要生成新变量来辨认不同样本使用append命令先读入一个数据（内存内数据），然后 append using 文件名 [，选项] 文件名为内存外数据文件（可省去.dta） keep(varlist): 保留内存外数据的变量 nolabel：不要拷贝内存外数值标签 nonotes：不要拷贝内存外数据标签横向合并：merge命令先读入一个数据，然后 merge [varlist] using 文件1 … [, 选项] [varlist]为合并样本序号变量文件1为内存外数据文件名，可以同时合并多个数据（因容易出错，故不建议使用） merge命令主要选项 _merge(newvar): 自动生成记录合并是否吻合的变量，默认为_merge, 取值为 --- 1 不吻合样本（仅内存内数据有） --- 2 不吻合样本（仅内存外数据有） --- 3 吻合样本 update：如果两个数据有相同变量，内存内数据的缺失数据被内存外数据的相应数值覆盖 replace：如果有相同变量，使用内存外数据（必须同时选update才能有效）交叉合并一一交叉：两个数据的每个个案做配对合并，形成（N1×N2）个新样本；如婚姻配对、市场买卖、社会网络等数据有时需要一一交叉合并（cross）。组内交叉：两个数据内有分组，按分组做一一交叉合并；主要应用于多层数据结构中不同层次的数据合并（joinby） cross 命令读入一个数据，然后 cross using 文件名注意事项：两个数据最好不能有相同变量名，如果有STATA只能沿用内存内的数据 joinby命令 joinby [varlist] using 文件名 [, 选项] varlist是分组变量名当两个数据还有其它相同变量时 ---update 选项指定内存内数据的缺失数据被内存外数据的相应数值覆盖 --- replace选项指定使用内存外数据（必须同时选update才能有效）数据重组长宽数据转换长数据格式：板块数据、历史事件数据等数据结构的两种不同的存储形式（其存储信息相同）有些统计分析模型需要长格式，有些则需要宽格式，所以长宽格式转换处理板块数据的必备技能 reshape 命令宽转长： reshape long 干名，i(varlist) [j(varname[values])] 长转宽： reshape wide 干名，i(varlist) [j(varname[values])] 干名：宽格式因时而变的变量名主干（在长格式为变量全名） i(varlist): 样本序号变量，为必须选项 j() : 宽因时而变得变量名后缀（在长格式为行变量的取值长宽格式转换注意事项变量干名要一致变量后缀要一致变量后缀的位置要一致样本序号要独特同一样本数据行序号不独特未被转换的变量在同一样本的取值不一样数据伸缩：expand命令 expand 整数或变量名 [if] [in] expand 3 (每个样本复制三个数据行) expand -2 （整数小于2时，不做复制） expand X （按变量X的取值对每个样本进行复制）数据伸缩：duplica