SAS数据分析方法体系.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS数据分析方法体系

数据分析方法体系 数据分析方法体系 0.1 三种数据分析方法论 0.2 统计软件中的数据存储格式 0.3 数据的统计描述与参数估计 0.4 常用假设检验方法 0.5 多变量模型 0.6 多元统计分析 0.7 智能统计分析/数据挖掘方法 0.1 三种数据分析方法论 严格设计支持下的统计方法论 半试验研究支持下的统计方法论 偏智能化、自动化的数据挖掘应用方法论 严格设计支持下的统计方法论 严格设计支持的统计方法论也称为经典统计方法论,之所以经典,不仅因为其发展较早,而且可使研究者在整个研究体系中尽量掌控一切,具体特征如下: 具有非常严密的研究设计,遵循七大步骤:试验设计、数据收集、数据获取、数据准备、数据分析、结果报告、模型发布。其中试验设计作为关键,直接影响整个研究的成败。 在此类研究项目中,试验设计中会充分考虑需要控制的影响因素,并采用多种设计方案来对非研究因素的作用加以控制,比如完全随机抽样、随机分组等。 数据在设计完毕后开始采集,整个试验过程会在尽量理想的情况下进行,从而在试验及数据获取过程中对无关因素加以严格控制。 原始数据往往需要从头开始采集,数据质量完全取决于试验过程是否严格依从设计要求,以及试验设计本身是否合理等,每个原始数据的成本都非常高。 在分析方法上,最终采用的统计模型应当基于相应的试验设计所定制的模型。由于在试验设计和试验实施过程中已经对非研究因素的影响做了充分的考虑和控制,因而在很多情况下往往可以只利用非常简单的统计方法。各种复杂高深的统计模型不是没有用武之地,但它们不是至关重要的工具。 此类统计方法论的应用在实验室研究、临床试验等领域最为常见,所使用的方法常常是单因素分析法,或者针对一些复杂设计使用一般线性模型(方差分析模型)的定制框架。 半试验研究支持下的统计方法论 经典统计分析方法论对整个流程的控制和干预非常严格,但是在很多情况下无法满足,形成了所谓半试验研究支持下的统计分析方法论,其具体特征如下: 研究设计具有明显的向实际情况妥协的特征,所谓七大步骤可能不被严格遵循,从数据准备开始的后三步的重要性比经典分析方法论高。 研究设计可能无法做到理想化,例如抽样与分组的完全随机性,试验组与对照组干预措施的严格控制无法严格满足。 整个数据采集过程难以做到理想化。 部分数据可能先于研究设计而存在,整个研究需要在这些数据的基础上补充所需的其他部分信息。另一方面,这些数据可能不完全满足分析需求,但这种缺陷却无法得到修正。 在分析方法上,由于实验设计难以做到完美,因此各种潜在因素的作用可能并不明确,需要从各种可能的影响因素中进行筛选和探索。可能用到的分析方法颇为复杂,事实上,很多复杂的多因素分析方法模型就是在这类研究的实际分析需求的刺激下产生并蓬勃发展的。 这类统计分析方法的应用范围目前最广泛,在经济学、社会学研究中最为常见。 偏智能化、自动化的数据挖掘应用方法论 和前两种较为传统方法论相比,数据挖掘方法论的特点为:完全以商业应用需求为导向。 分析流程出现了很大的变化,不再是线性的七大步骤,而是周而复始的循环结构,且非常强调前期的商业理解,后期的模型发布与应用。在常见的数据挖掘方法论中,以CRISP-DM最具代表性。 由于业务数据往往来源于业务系统,如电信公司的业务数据库,因此数据采集过程是全自动的,完全先于整个研究项目而存在,不是为数据分析而做准备的,因为难以做到理想化。 由于业务系统的数据会动态增加,因此几乎不可能考虑另行加以人工收集希望补足的数据,而只能看菜吃饭,否则整个项目将永无止境,失去实用价值。 在分析方法上,由于极端强调商业应用,因此分析方法的选择并不重要,往往采取多种方法并行,从中择优的分析思路。 能否满足商业需求,或者说模型是否能够在业务系统中得到真正的发布和应用,则是判断整个数据挖掘项目是否成功的唯一标准。 0.2 统计软件中的数据存储格式 二维数据表 变量的存储类型 数值型 字符型 变量的测量尺度 定类尺度 定序尺度 定距尺度和定比尺度 0.3 数据的统计描述与参数估计 连续变量的统计描述 集中趋势的描述指标:算术平均、中位数、几何平均、结尾平均、众数、调和平均 离散趋势的描述指标:全距、方差、百分位数、四分位数、四分位间距、变异系数 分布特征的描述指标:偏度、峰度 其他:单峰、双峰,极端值 连续变量的参数估计: 参数的点估计 参数的区间估计 分类变量的统计描述和参数估计 频数分布 相对数指标:比(Ratio),构成比(Proportion),率(Rate) 统计图形体系 单变量图———连续变量:直方图、箱图、茎叶图 单变量图———分类变量:饼图、Pareto 双变量图———连续因变量:条图、散点图 双变量图———分类因变量:条图、马赛克图 0.4 常用假设检验方法 完成了统计描述和参

文档评论(0)

dajuhyy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档