- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计分析,应用,胡毅,描述性统计分析,应用,胡毅,描述性
第5章 描述性统计分析 1 内容提要 5.1 描述性统计的原理 5.2 描述性统计量的Stata实现 5.3 探测异常值 5.4 数据的正态性检验和数据转换 5.5 相关系数 2 5.1 描述性统计的原理 定性变量 对于某个特别的类别,每个观测值有且只能属于其中的一个类。 对给定的类,类(或组)频数是指落入这个类中的观测值的个数。 对给定的类,类(或组)相对频率是指落入这个类中的观测值的个数相对于观测值总数的比例。 3 5.1 描述性统计的原理 定量变量(yi, i=1,2,……,n) 数值描述性统计量由样本数据计算得到,下面将给出三种类型的度量: 集中趋势的度量 变异程度的度量 相对位置的度量 统计量 由样本数据计算得到的数值描述性度量通常称作统计量。 4 5.1 描述性统计的原理 总体 对某一个问题的研究对象的全体称为总体 个体 组成总体的每个基本单元称为个体 子样 从总体中随机抽取的n个个体称为容量为n的子样 统计量 设Y1,Y2,……,Yn为总体Y的子样,T为子样空间中的点(y1,y2,……,yn)的实值函数,作子样的函数T=T(Y1,Y2,......,Yn),T的取值记为t=T(y1,y2,……,yn)。若T=T(Y1,Y2,......,Yn)也为一随机变量,且不带未知参数,则称T或T(Y1,Y2,......,Yn)为统计量。 5 5.1 描述性统计的原理 集中趋势的度量 算术平均值 中位数 n个观测y1,y2,……,yn的中位数是测量值按从小到大顺序排列后位于中间的那个数 众数 n个观测y1,y2,……,yn的众数是以最大频率数出现的y值 6 5.1 描述性统计的原理 变异程度的度量 级差 一个数据集合中最大观测值和最小观测值之间的差 方差 n个观测y1,y2,……,yn的样本方差定义为 标准差 n个观测y1,y2,……,yn的样本标准差定义为 7 5.1 描述性统计的原理 切比雪夫法则(经验法则) 很少的观测值落在平均值1个标准差范围内; 至少有3/4的观测值落在平均值的2个标准差范围内; 至少有8/9的观测值落在平均值3个标准差范围内; 通常,对于任意大于1的数k,至少有 的观测值落在平均值的k个标准差范围内。 8 5.1 描述性统计的原理 相对位置的度量 分位数 数据集的第100p分位数是这样一个y值:使得在数据集的相对频率分布中有100p%的面积位于它的左边,有100(1-p)%的面积位于它的右边(0=p=1) z得分 数据集中yi的z得分是以标准差为单位度量yi位于均值之上或之下的距离。 将样本原始观测值(也称得分,score)减去样本均值并除以样本的标准差,得到标准得分(standard score),又称为z得分。 9 5.1 描述性统计的原理 偏度(Skewness) 对数据对称性的度量 总体偏度 样本偏度 若数据分布是对称的(左偏/右偏),偏度系数为0(0/0) 10 5.1 描述性统计的原理 峰度(Kurtosis) 对数据分布平峰或尖峰程度的测度,直观看来,峰度反映了尾部的厚度。 总体峰度 样本峰度 标准正态分布偏度为0,峰度为3. 11 5.1 描述性统计的原理(见维基百科) 12 5.1 描述性统计的原理 ex-5.1 设置样本容量为5000 生成标准正态分布的随机数 生成均值为0,标准差为2的正态分布随机数 生成均值为0,标准差为0.5的正态分布随机数 画出上述三个随机数序列的核密度估计图 Help function 13 5.2 描述性统计量的Stata实现 table tabulate tabstat summarize summarize [varlist] [if] [in] [weight] [, options] detail 产生更加详细的统计变量,包括偏度、峰度、 最小和最 大的四个值以及各种百分位数。 meanonly 仅计算和显示平均数,本选项在编程中比较 有用。 format 使用变量的显示格式。 separator(#) 每#个变量画一条分界线,默认为 separator(5) separator(0) 禁止使用分界线。 14 5.2 描述性统计量的Stata实现 ex-5.2:使用summarize命令对wage.dta执行如下操作 对wage、educ、exper、tenure、nonwhite、female、married做基本的统计分析; summarize命令加上detail选
您可能关注的文档
最近下载
- 安徽蓝盾 YDZX-01型烟气系统操作手册.pdf VIP
- 宠物除臭剂项目立项报告.pptx VIP
- 2024年履行合同催告函(6篇).pdf VIP
- CFD软件:Star-CCM+ 二次开发_(9).Star-CCM+后处理与可视化二次开发.docx VIP
- CFD软件:Star-CCM+ 二次开发_(8).Star-CCM+物理模型与求解器二次开发.docx VIP
- CFD软件:Star-CCM+ 二次开发_(7).Star-CCM+网格生成与优化二次开发.docx VIP
- CFD软件:Star-CCM+ 二次开发_(6).Star-CCM+二次开发API基础.docx VIP
- CFD软件:Star-CCM+ 二次开发_(5).Star-CCM+脚本编写与调试.docx VIP
- CFD软件:Star-CCM+ 二次开发_(4).Star-CCM+二次开发环境搭建.docx VIP
- CFD软件:Star-CCM+ 二次开发_(3).Star-CCM+数据结构与对象模型.docx VIP
文档评论(0)