疾病确诊问题实证研究.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
疾病确诊问题实证研究

题目:疾病确诊问题的实证研究 【摘要】 人们到医院就诊时,其是否患肾炎一般要通过化验人体内各种元素的含量来协助医生的诊断。为了更好地解决实际问题,我们建立了logistic回归模型、决策树模型以及判别分析。 logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率等。本文中通过题设给出的两组人体内各种元素的含量,一组是有肾炎组,一组是非肾炎组,这里的因变量就是是否有肾炎,即“是”或“否”,为两分类变量,自变量包括,通过logistic回归分析,就可以大致了解到底哪些因素是判定肾炎的关键因子。决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 【关键字】 Logistic回归、决策树、多元统计分析、判别分析 问题重述 人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为非肾炎病人的结果。表2是就诊人员的化验结果。 需要解决的问题: (1)、根据表1中的数据,给出一种或多种简便的判别方法,判别是否属于肾炎患者的方法,并检验你的方法的正确性; (2)、按照 (1) 中给出的方法,对表2中的30名就诊人员的化验结果进行判别,判定他们是否肾炎病人; (3)、能否根据表1的数据特征,确定哪些指标是关系到人们患肾炎的主要或关键因素,以便减少化验的指标; (4)、根据 (3) 中的结果,重复 (2) 的工作; (5)、对 (2) 和 (4) 的结果作进一步的分析。 们到医院就诊时,通常要化验一些指标来协助医生的诊断。本文借助肾炎这一病例以及相关数据对通常化验指标作出相关分析,帮助判断人们是否得肺炎,以助医生能更好地判断病情并作出相应的解释。 问题分析 2.1、模型定义 1到30号为有病,定义有病为Y=1,30到60号为没得肺炎,定义为Y=0. 2.2、模型构建 2.2.1、Logistic模型 变形为()=+ 其中x为解释变量,Y为被解释变量,p为Y为1的条件概率。 2.2.2、决策树模型 决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。构造一个决策树分类器通常分为两步:树的生成和剪枝。其中树的生成是采用自上而下的递归方法。以多叉树为例,它的构造思路是,如果训练例子集合中的所有例子是同类的,则将之作为叶子节点,节点内容即是该类别标记。否则,根据某种策略选择一个属性,按照属性的各个取值,把例子集合划分为若干子集合,使得每个子集上的所有例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。 2.2.3、判别分析 判别分析的基本假设有三个 1、每一个解释变量不能是其他解释变量的线性组合,即每个解释变量都是独立的 2、各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,他们是判别变量的简单线性组合。在各组协方差矩阵相等的假设下,可以使用很简单的公式计算判别函数和进行显著性检验。 3、各判别变量之间具有正态分布,即每个变量对于其他变量的固定值有正态分布。 判别分析主要有距离判别、贝叶斯判别和Fisher判别。本文使用距离判别和Fisher判别来进行分析。距离判别的基本含义就是判断样品到总体Y1,Y2的距离d1,d2,若d1d2,则样本属于总体Y2。距离判别使用的距离一般指马氏距离,即,,其中,,,分别为总体Y1,Y2的均值和协方差矩阵。Fisher判别的思想是投影,将k组p维数据投影到某一方向,使得他们的投影组与组之间尽可能的分开,这种方法借助了一元方差的思想。 2.3、模型解释 2.3.1、对于Logistic模型、决策树模型,主要利用SAS的enterprise、miner模块进行数据处理,变量的选择,模型的构建,模型的评价以及对样本的诊断。 建立如下的数据分析流程图: 数据挖掘流程图 第一个数据集(即第一个节点work.yaowu1)导入的是1-60号的样本,其中加入变量result,当id为1-30时,result=1,其他的为0。第二个数据集(work

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档