2016数据分析方法04+5-基本统计分析教程.pptxVIP

2016数据分析方法04+5-基本统计分析教程.pptx

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
4.1 频数分析 4.2 计算基本描述统计量 4.3 交叉分组下的频数分析(重点) 4.4 多选项分析(自学) 4.5 比率分析(自学) 4.6 探索性分析(自学) ;4.1 频数分析;1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 2、基本任务 (1) 频数分析的第一个基本任务是编制频数分布表; (2) 频数分析的第二个任务是绘制统计图:条形图、饼图、直方图。 ;2) 频数分析的基本操作;数据加工(职工数据).sav; 输出百分位数: 输出四分位数,显示25%、50%、75%的百分位数; 将数据平均分为所设定的相等等份,可输入2—100 的整数,如键入4则输出第25、50、75百分位数 自定义百分位数,可输入0—100 的整数。;3) 频数分析的应用举例;目标一:分析储户的户口和职业的基本情况 (1)户口和职业两个变量都是定类变量,可通过基本频数分析实现。 (2)职业变量的取值(分类)数目较多,为使频数分布表更一目了然,应对内容的输出顺序进行调整,单击格式Format按钮,选择Descending counts按频数的降序输出。 (3)单击图形Chart按钮指定输出户口变量的饼图和职业变量的条形图。;;户口的基本情况-输出结果;;职业的基本情况-输出结果;目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 1、分析思路: (1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。 (2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位数,并通过四分位数比较两者分布上的差异。;2、分析过程: (1)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于500元,500-2000元,2000-3500元,3500-5000元,5000元以上。分组后进行频数分析并绘制带正态曲线的直方图。 (2)利用SPSS的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的存(取)款金额的四分位数。;存款金额分布-数据分组操作;分组结果;存款金额分布-输出结果;存款金额城乡比较-数据拆分操作;数据拆分结果:数据按户口进行了排序,且后面的操作都是按拆分变量的不同组分别进行分析计算。;城乡比较-数据拆分后的输出结果;4.2 计算基本描述统计量;1) 基本描述统计量;离散趋势;2) 基本描述统计量的操作;基本统计量;3) 应用举例;数据拆分操作;;;问题描述;4.3 交叉分组下的频数分析;1) 目的和基本任务;2、基本任务: 1)根据收集到的样本数据,产生二维或多维交叉列联表; 2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。;2) 交叉列联表的主要内容;;3) 交叉列联表行列变量间关系的分析;交叉列联表的思想--卡方检验;其中,r为列联表的行数,c为列联表的列数; 为观察频数, 为期望频数(Expected Count)。期望频数的计算方法是: 其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。 期望频数的分布反映的是行列变量互不相干下的分布。;(3) 确定显著性水平和临界值;(4) 结论和决策;利用p值进行检验(决策准则);4) 基本操作;该框中的变量作为分布表中的行变量和列变量;(2) 如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。;单元显示Cell Display 对话框;统计量和格式对话框;5) 应用举例;分析:1、该问题列联表的行变量为户口,列变量为未来收入状况,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对城镇和农村储户对该问题的态度是否一致进行分析。 2、该问题列联表的行变量为户口,列变量为什么合算,在列联表的基础上进行卡方检验。;1. 未来收入状况的态度—操作;1. 未来收入状况的态度—输出结果;p值小于0.05拒绝原假设,认为行列变量之间相关,户口对未来收入看法有影响;

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档