数据挖掘原理与SPSSClementine应用宝典第17章数据挖掘模型评价教学幻灯片讲义.pptVIP

数据挖掘原理与SPSSClementine应用宝典第17章数据挖掘模型评价教学幻灯片讲义.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

Copyright 2003-12, SPSS Taiwan Corp. Copyright 2003-12, SPSS Taiwan Corp. 17.3 基于计分函数的标准 17.2节解释了一个模型选择策略如何在模型拟合和模型简化之间取得折中。现在从另一个角度看一下这个问题,它是基于偏差和方差之间的折中。我们应用估计量均方差原理来测量选择作为目标模型f最佳逼近模型 模型的欧氏距离。 (17-23) Copyright 2003-12, SPSS Taiwan Corp. 注意到 是基于数据的估计,所以它受样本变化性的影响。此外对于 可以定义它的期望值E( )和方差Var( )。根据均方差的性质可以得到: (17-24) 这表明与一个模型相关联的误差可分为两个部分:系统误差(偏差),它不依赖于观测数据并反映由于参数逼近产生的误差;样本误差(方差),它反映了由于估计过程产生的误差,因此应精心选择可以平衡这两部分的模型。 Copyright 2003-12, SPSS Taiwan Corp. Akaike信息标准(AIC), 1974年Akaike形式化了其思想: (1)参数模型使用最大似然法进行估计; (2)指定的参数族包含作为特例的未知分布f(x)。 这样Akaike通过采用Kullback-Leibler样本离差函数定义了一个评分函数给每个模型赋予一个分数。在标准形式下,AIC定义为如下等式: (17-25) 其中, 是对计算最大似然估计的似然函数取对数,q是模型中参数的个数 Copyright 2003-12, SPSS Taiwan Corp. 贝叶斯信息标准(BIC),也称为SC。它是由Schwarz(1978)制定的并用下列表达式定义: (17-26) BIC与AIC区别仅在于第二部分,现在第二部分也依赖于样本规模n。当n增长时,BIC比AIC更倾向于简单的模型。当n变大时,与n是线性关系的第一项的影响压倒了与n是对数关系的第二项占支配地位。这对应着这样的事实:对于一个很大的n来说在MES表达式中的方差项可以被忽略。虽然BIC与AIC表面相似,但AIC是用经典的渐进的论断来证明,而BIC是用贝叶斯构架证明。 Copyright 2003-12, SPSS Taiwan Corp. 17.4 贝叶斯标准 在贝叶斯推导中每一个模型给一个对应于模型后验概率的分数,一个模型成为一个在所有候选模型空间中取值的离散随机变量。这个概率可以由贝叶斯规则计算: (17-27) 贝叶斯评分方法首先要解决的问题是计算模型的似然。对于一个有参数向量θ指定的模型M,需要计算: (17-28) Copyright 2003-12, SPSS Taiwan Corp. 贝叶斯方法更大的优点在于模型的评分数是概率,所以还可以用于从各种竞争模型中得到推论,而不是只基于一个选定的模型得到推论,这考虑了模型的不确定性。考虑预测某个变量Y值的问题,对于在K个可选模型中,选定模型的不确定性,贝叶斯预测是: (17-29) Copyright 2003-12, SPSS Taiwan Corp. 17.5计算标准 17.5.1交叉验证标准 交叉验证的思想是把样本分为两个样本子集:一个是训练样本集,包括n-m个样本;一个是检验样本集,包括m个样本。第一个样本用来拟合模型,第二个样本用来估计期望离差或者估算一个距离。比如,在有定量输入的神经网络中,通常用高斯离差:

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档