数学建模的数据挖掘方法.pptVIP

  1. 1、本文档共93页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=noNormal34high61total95WindyPlay=yesPlay=noTrue33False62total95试计算其“条件概率”。第63页,共93页,星期日,2025年,2月5日对于待分类样本:分别计算以下两个概率:=0.333*0.22*0.33*0.3*0.643=0.0053=0.4*0.4*0.8*0.6*0.357=0.0274,因此为第二类,即不适合比赛。第64页,共93页,星期日,2025年,2月5日情形2.第j个属性Aj为连续型的情况tid有房婚姻状况年收入拖欠贷款1是单身125否2否已婚100否3否但是70否4是已婚120否5否离婚95是6否已婚60否7是离婚220否8否单身85是9否已婚75否10否单身90是考虑如下的训练样本集,如何判别样本的类别?第65页,共93页,星期日,2025年,2月5日属性“年收入”为连续型数据类型,此时如果再用公式来估计条件概率已不合适,例如,若新样本的“年收入”为110K,则类似的新样本将无法判别。有两种策略可以用了估计连续型属性的条件概率:1.把连续属性离散化;2.用概率分布来估计条件概率第66页,共93页,星期日,2025年,2月5日对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011第31页,共93页,星期日,2025年,2月5日因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes第32页,共93页,星期日,2025年,2月5日若取Temperature,则重新确定记录集如下:OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFYTempSunnyHighMPlay=NoPlay=No可以看出其三个分支H,C和M下的所有记录也属于相同的类,此分支算法结束。其分支结构如右:CPlay=Yes第33页,共93页,星期日,2025年,2月5日2)同理,对于Rain分支,统计数据如下:WindyRainFalseTruePlay=YesPlay=NoOutlook=RTempHumiWindyPlayMHFYCNFYCNTNMNFYMHTN因此选Windy其分支结构如右:第34页,共93页,星期日,2025年,2月5日3)同理,对于Overcast分支,统计数据如下:Play=Yes该分支下所有记录均为同一类,因此该分支算法结束,其结构如下右。Outlook=OvercastTempHumiWindyPlayHHFYCNTYMNTYMHTYHNFYOvercast第35页,共93页,星期日,2025年,2月5日综合以上结果,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第36页,共93页,星期日,2025年,2月5日决策树构造好后,给出新的对象便可判别其类别,例如,新的天气对象为:1)“Overcast,cool,high,False”2)“Rain,Mild,Normal,True”,其类别分别为:第37页,共93页,星期日,2025年,2月5日五、基于数据分布的特征选择策略除了基于信息增益的特征选择策略外,还可以根据结点的数据类别的分布来选择最优分裂结点,称之为GiniIndex方法。定义:假设训练集T包含n个样本,这些样本分别属于m个类,其中第i

文档评论(0)

xiaolan118 + 关注
实名认证
文档贡献者

你好,我好,大家好!

版权声明书
用户编号:7140162041000002

1亿VIP精品文档

相关文档