《出版社多元统计分析》课件_第13章-定性数据的建模方法.pptxVIP

下载本文档

0
0
约6.81千字
约 122页
2025-10-15 发布于广东
举报
版权申诉

《出版社多元统计分析》课件_第13章-定性数据的建模方法.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;第13章定性数据的建模方法;;;;数理统计中经常遇到的资料可分为以下四类：;实际问题中，经常分析变量之间是否独立？不独立时有什么形式的函数关系？如何估计函数的形式和函数中的参数？

为了便于说明，我们把一部分变量称为因变量，另一部分变量称为自变量，于是按变量是定性或定量的情况来分类，可得到如下的大致的统计问题归类表13.1.1。;1.定性变量数量化;所以可以把定性变量看成是离散变量，记为X，进一步就可以考察定性变量的分布（离散型变量分布律），比如有时根据实际情况，假设X服从二项分布、多项分布、泊松分布。;从这个角度可见，定性数据本质就是多元数据。上面的数量化方法称为0-1赋值向量法，后面我们也会运用这种方法探讨定性数据的一些理论问题。;2.定性数据的描述性统计方法;表13.1.3中的数据是原始数据，使人眼花缭乱，不得要领。将不相重叠的类的频数列成表格，见表13.1.4。称这种交叉分组列表为列联表。;2）图示法;解：可以用Excel软件的作图命令绘制。或用SPSS软件Graphs中的Pareto…绘图。;3）数值法;可见，可口可乐的频数最高，所以“可口可乐”是众数。在这里，众数提供了被调查者偏好的信息。读者可能会有疑问，众数应该是个“数”吧？其实，数据有广泛的含义，饮料的名称等也可以看成是数据。众数不唯一，在多众数情况下，意义不大。;④离异比率：定性名义数据的离散程度可以用离异比率V度量：;⑤Gini-Simpson指数：基尼-辛卜生指数、G-S指数，随机变量ξ的G-S指数为：;⑥熵：;续例13.4调查“你最喜欢喝的饮料”(表13.1.13)，计算饮料数据的离散程度。;3.定性变量的相关性;续例13.11927年英国医生泰勒歌德说，他看到的肺癌患者几乎都吸烟。人们越来越感到研讨吸烟与患肺癌的关系很有必要。用A表示一个人是否患肺癌，用B表示一个人是否吸烟，从一批被调查的对象中得到的数据表13.1.4，研讨患肺癌是否与吸烟有关？;列联表独立性检验;注：;;1.四格表的对数线性模型;将概率取对数后进行数据的分解处理，用符号来表示这一分解过程：;可见列联表资料的单元格频数的对数表示为各变量及其交互效应的线性模型，故称为对数线性模型。;2.模型的参数估计;在实际应用时，概率表中的各项概率值可用其估计量代替：;3.模型的假设检验;似然比检验中期望频数是使用似然方法计算的，因此更为稳健，并且似然比卡方（L2）可以被分解成若干部分，即各项效应都有对应的似然比卡方值，并且它们的似然比卡方值（L2）之和等于整个模型的似然比卡方值，这一特性在比较不同简略模型时尤其重要。;（2）分层效应的检验;（3）单项效应的检验;（4）单个参数估计的检验;4.案例分析;请按式（13.2.1）模型估计各效应参数。;主效应估计值：;变量间交互作用效应估计值：;例13.6请运用对数线性模型分析育龄夫妇是否领独生子女证与所生育的第一个孩子性别的关系，并定量描述第一个孩子的性别对后续生育决策的影响。数据见表13.2.1。;1.对数线性模型的一般（General）模型;DistributionofCellCounts框：选择单元格频数的分布类型,有两个选项：多项分布（Multinomial），假定格子里面的频数满足多项分布。泊松（Poisson）分布，假定格子里面的频数满足Poisson分布。SPSS默认值是Poisson对数线性模型。;Model(模型)框：和方差分析的对话框类似，如果选Saturated(饱和模型)，那就是所有交互效应都要放入模型；但如果不想这样，可以选Custom(自定义)，在BuildingTerms(构造模型的项)选Maineffect(主效应)，再把变量一个一个地选进来(如果两个或多个一同选入，等于选入交互效应。这样有选择的选取效应，可以帮我们建构更简略的模型。;Save框：用于选择可保存在数据文件中的一些拟合指标，有Residual(每个单元的残差)、Std.Resid（标准化残差）、校正残差（残差除以标准误，检查残差分布的正态时优于标准化残差）、偏差残差（带正负号的该记录对对数似然比卡方贡献量的平方根）、预测值，图13.2.3。

残差反映模型拟合的程度，残差=该单元的观察值-其期望值。当残差很小时，模型拟合数据的程度很高。饱和模型的残差等于0。

Options框：其中Display复选框，输出频数表、残差、设计矩阵、模型中各个系数的估计值；Plot复选框，给出校正残差图、校正残差的正态概率图、偏差残差图、偏差残差的正态概率图；ConfidenceInterval框，用于设置可