STATA数据管理.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
STATA数据管理

STATA数据管理 李博柏 北京大学光华管理学院 说明 程序文件: --- data.do 生成所有人工数据 --- dataman.do 运行本讲所有数据管理例子 --- program.do “编程入门”程序文件 把三个文件拷贝到一个文件夹,打开STATA,用“cd 文件夹路径”把数据文件夹确定为当前工作目录 在命令窗口键入: do data, do dataman即可运行所有例子 学习要点 熟悉STATA重要的数据管理命令 了解常见基本数据结构及其用途 了解数据管理中的常见问题 利用简单的编程解决复杂的数据管理问题 基本数据结构介绍 横截数据(cross-sectional data) 合并横截数据(pooled cross-sectional data) 板块数据(panel, longitudinal, or cross-sectional time series data) 多层数据(multilevel or hierarchical data) 配对数据(matching or pairing data) 数据合并 数据合并 纵向合并:把多个样本简单累加(从cross-sectional 到pooled cross-sectional或) 横向合并:把同一样本的不同变量累加 交叉合并:把不同样本和不同变量累加(适用于多层数据和配对数据) 纵向合并要求 变量名要一致 变量类型要一致 样本序号不要重复(板块数据除外) 合并前要生成新变量来辨认不同样本 使用append命令 先读入一个数据(内存内数据),然后 append using 文件名 [,选项] 文件名为内存外数据文件(可省去.dta) keep(varlist): 保留内存外数据的变量 nolabel:不要拷贝内存外数值标签 nonotes:不要拷贝内存外数据标签 横向合并:merge命令 先读入一个数据,然后 merge [varlist] using 文件1 … [, 选项] [varlist]为合并样本序号变量 文件1为内存外数据文件名,可以同时合并多个数据(因容易出错,故不建议使用) merge命令主要选项 _merge(newvar): 自动生成记录合并是否吻合的变量,默认为_merge, 取值为 --- 1 不吻合 样本(仅内存内数据有) --- 2 不吻合样本 (仅内存外数据有) --- 3 吻合样本 update:如果两个数据有相同变量,内存内数据的缺失数据被内存外数据的相应数值覆盖 replace:如果有相同变量,使用内存外数据(必须同时选update才能有效) 交叉合并 一一交叉:两个数据的每个个案做配对合并,形成(N1×N2)个新样本;如婚姻配对、市场买卖、社会网络等数据有时需要一一交叉合并(cross)。 组内交叉:两个数据内有分组,按分组做一一交叉合并;主要应用于多层数据结构中不同层次的数据合并(joinby) cross 命令 读入一个数据,然后 cross using 文件名 注意事项:两个数据最好不能有相同变量名,如果有STATA只能沿用内存内的数据 joinby命令 joinby [varlist] using 文件名 [, 选项] varlist是分组变量名 当两个数据还有其它相同变量时 ---update 选项指定内存内数据的缺失数据被内存外数据的相应数值覆盖 --- replace选项指定使用内存外数据(必须同时选update才能有效) 数据重组 长宽数据转换 长数据格式:板块数据、历史事件数据等数据结构的两种不同的存储形式(其存储信息相同) 有些统计分析模型需要长格式,有些则需要宽格式,所以长宽格式转换处理板块数据的必备技能 reshape 命令 宽转长: reshape long 干名,i(varlist) [j(varname[values])] 长转宽: reshape wide 干名,i(varlist) [j(varname[values])] 干名:宽格式因时而变的变量名主干(在长格式为变量全名) i(varlist): 样本序号变量,为必须选项 j() : 宽因时而变得变量名后缀(在长格式为行变量的取值 长宽格式转换注意事项 变量干名要一致 变量后缀要一致 变量后缀的位置要一致 样本序号要独特 同一样本数据行序号不独特 未被转换的变量在同一样本的取值不一样 数据伸缩:expand命令 expand 整数或变量名 [if] [in] expand 3 (每个样本复制三个数据行) expand -2 (整数小于2时,不做复制) expand X (按变量X的取值对每个样本进行复制) 数据伸缩:duplica

文档评论(0)

pangzilva + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档