SAS应用基础6-3 属性数据分析.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS应用基础6-3 属性数据分析

* 属性数据分析 (列联表分析) * 变量的类型 SAS中,变量按类型(Type)可分字符型和数值型两类。数值型变量就是用数字来计量的变量,而不能用数字来计量的变量则称为字符型变量。 按测量水平(Measurement Level)通常可将变量粗分为区间型(Interval)和名义型(Nominal). * 区间型变量 所谓区间型变量是指本来的屈指范围可以是一个连续的数值区间,它可细分为间隔型和比率型。 间隔型—数值无绝对零点,间隔有意义,倍数无意义,只能做加减不能做乘除。 比率型—数值有绝对零点,可进行四则运算. * 名义型变量 所谓名义型变量是指变量本身本质上不能用数值表示,在测量时即使用了数值表示,该数值也是名义上的,无真正意义。名义型变量可细分为分类型和有序型。 分类变量—变量的取值表示几个无次序之分的不同状态。 有序变量—变量的取值表示几个有内在顺序关系的状态。 * 属性数据 分类变量和有序变量统称为属性变量,有时也称字符型变量或定性变量。 间隔变量和比率变量则称为数值变量,有时也称定量变量或连续变量。 对属性变量进行数据分析称为属性数据分析。通常解决“产生汇总分类数据(频数表)”、“属性变量之间的独立性检验”、“计算属性变量间的关联系数”等问题。 在市场调查中得到的信息往往是分类信息,而非定量变量的具体值,需要做属性数据分析。 * 属性数据分析 常见的属性数据分析形式主要有单向表、双向表、多向表三种。 单向表:由一个属性变量对总体或调查数据进行分组构成单向表或称一维分组表。 proc freq data=table-name; tables var-names; run; 多向表:由两个以上属性变量构成的表称多向表,也称多向交叉表或多维表。多向表通常化为双向表进行分析。 * 双向表(列联表) B1 B2 … BC 合计 A1 n11 n12 … n1C n1 A2 n21 n22 … n2C n2 … … … … … … AR nR1 nR2 … nRC nR 合计 n1 n2 … nC R?C双向表数据结构的一般形式 R行 C列 * 列联表的构成 * 列联表的形式 * 示例 data a; input smoke$ cancer$ num@@; cards; 吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121 ; proc freq; tables smoke*cancer; weight num; run; * 示例(续) proc freq; tables smoke*cancer/nopercent norow nocol; weight num; run; * 示例 data a; input city$ smoke$ cancer$ num@@; cards; 北京 吸烟 患病 40 北京 吸烟 未患 160 北京 不吸烟 患病 15 北京 不吸烟 未患 120 上海 吸烟 患病 45 上海 吸烟 未患 165 上海 不吸烟 患病 18 上海 不吸烟 未患 125 proc freq; tables city*smoke*cancer; weight num; run; * 示例(续) proc tabulate; class city smoke cancer; table city*smoke*cancer; freq num; run; * 列联表检验 对于数值型变量,如果分析它们之间的关系,最常用的方法就是回归分析和方差分析。但是,对于一些取离散值的定性变量要检验它们之间是否独立,只能使用列联表的检验方法。 列联表检验的零假设:是因素X 与因素Y 独立。列联表检验的核心是?2 检验,比较频数与理论均值的差,如果差异达到一定的程度,则说明两个因素之间具有一定的关系,因此否定零假设。 * 用FREQ过程做列联表检验 列联表检验是通过在FREQ 过程中添加?2检验的选项实现的,一般用法如下: PROC FREQ DATA 数据集 TABLES 因素A*因素B / CHISQ WEIGHT 试验结果 RUN; * 列联表检验示例1 例:为了判断患心脏病是否与吸烟有关调查了862 个人调查结果如表 data heart; do a=1 to 2; do b=1 to 2; input f@@; output; end; end; cards; 243 185 156 278 run; proc freq; weight f; tables a*b / chisq; run; /* a=1为患心脏病, a=2为未患心脏病*/ /* b=1为吸烟, b=2为不吸烟*/ * 列联表检验结果输出 结果大体分为3 个部分: 第一 部分是一个2?2 的频数统计表,在每一格内有4 行

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档