- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Clementine决策树CHAID算法.
CHAID算法(Chi-Square Automatic Interaction Detection) CHAID提供了一种在多个自变量中自动有哪些信誉好的足球投注网站能产生最大差异的变量方案。 不同C&R树和QUEST节点,CHAID分析可以生成非二进制树,有些分割有两个以上的分支CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。 CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。 CHAID根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量属性共同描述的,因此属于多变量分析。 在形式上,CHAID非常直观,它输出的是一个树状的图形。 1.它以因变量为根结点,对每个自变量(只能是分类变量,也就是离散性的,P值的大小),然后选择最显著的分类法作为子节点。 2.CHIAD可以自动归并自变量中类别,使之显著性达到最大。 3.最后的每个叶结点就是一个细分市场 CHAID 自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。 当预测变量较多且都是分类变量时,CHAID分类最适宜。 CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。 CHAID的一般步骤 -属性变量的预处理 -确定当前分支变量和分隔值 属性变量的预处理: -对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们; -对定距型属性变量,先按分位点分组,然后再合并具有同质性的组; -如果目标变量是定类变量,则采用卡方检验 -如果目标变量为定距变量,则采用F检验 (统计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。如职称变量可以有低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;定类型数据是指没有内在固定大小或高低顺序,一般以数值或字符表示的分类数据。 F检验:比较两组数据的方差,,假设检验两组数据没有显著差异,FF表,则接受原假设,两组数据没有显著差异;FF表,拒绝原假设,两组数据存在显著差异。 属性变量预处理的具体策略 -如果仅有一个或两个分组,则不做合并处理 -根据卡方统计量(或似然比卡方)的P-值决定合并哪些 组() -如果用户指定在合并同时还考虑组拆分(Allow splitting merged categories),则新近合并的组中如果包括三个以上的原始分组,应根据检验结果判断是否需再拆分成两组(P-值 split-merge) 确定当前分支变量和分隔值 -计算经预处理后的各属性变量与目标变量的卡方检验统计量和P-值。P-值最小的变量(与目标变量联系最紧密)作为当前的最佳分支变量,该变量的所有分组形成该分支下的子节点 对每个子节点重复上述处理,直到满足收敛条件为止 CHAID的适用范围 当预测变量是分类变量时,CHAID方法最适宜。对于连续型变量,CHAID在缺省状态下将连续变量自动分为10段处理,但是可能有遗漏。 当预测变量是人口统计变量时,研究者可以很快找出不同细分市场特征,免去对交叉分析表归并与检查之苦。 CHAID的预剪枝 基本参数: 决策树最大深度:如果决策树的层数已经达到指定深度,则停止生长。 树中父节点和子节点所包含的最少样本量或比例:对父节点是指,如果节点的样本量已低于最少样本量或比例,则不再分组;对于子节点是指,如果分组后生成的子节点中的样本量低于最小样本或比例,则不必进行分组。 当输入变量与输出变量的相关性小于一个指定值,则不必进行分组。 CHAID模块的优点: -不像CART和QUEST模块,CHAID可产生多分枝的决策树 -目标变量可以定距或定类的 -从统计显著性角度确定分支变量和分隔值,进而优化树的分枝过程 -CHAID是建立在因果关系的探讨中的,依据目标变量实现对输入变量众多水平的划分 例:心脏数据综合诊断数据 现有数据OVERALL_DIAGNOSIS(综合诊断) 本案例是一个医学心脏病综合诊断报告案例,目的通过已知
您可能关注的文档
最近下载
- 万科-平衡计分卡-经典案例讲解.docx
- 2023年福建省计算机专项考评员试题.docx VIP
- 2025年粮食日主题班会《“知食分子”不剩饭》【课件】.pptx VIP
- 马达加斯加共和国TheRepublicofMadagascar.PDF VIP
- 微软云存储OneDrive 入门.pdf VIP
- 新版人教版三年级上册数学全册教案教学设计含教学反思 .pdf
- 《外科护理学》课件—— 急性阑尾炎病因和发病机制.pptx VIP
- GB/T19580 《卓越绩效评价准则》国家标准培训讲义.pdf VIP
- 2025广西盐业集团玉林盐业有限公司招聘笔试备考题库及答案详解(历年真题).docx
- 《单片机基础与Arduino应用(第2版)》全套教学课件.pptx
文档评论(0)