山东大学基于web的信息检索和知识发现chap9.pptVIP

山东大学基于web的信息检索和知识发现chap9.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
山东大学基于web的信息检索和知识发现chap9

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * C4.5的改进 1)缺少值的预测属性仍然可用 C4.5对于缺值的处理是基于概率分布的想法,在某一步分裂时,如果发现了某一条数据的某个属性缺值或为非法数据,则将该实例按照缺值属性的所有可能取值进行分裂,将其分裂为多个实例归属于不同的类别,并赋以不同的权值,该权值为某个可能的取值在该分类中的出现概率。而其他实例的权值为1。以此来计算该属性的信息增益。 2)有连续值的预测属性可用 C4.5中对连续属性的处理采用了二值离散的方法,即对某个连续属性A.找到一个最佳阈值T,根据A 的取值与阈值的比较结果,建立两个分支AT(左枝)和A=T(右枝),T为分割点。从而用一个二值离散属性A’(只有两种取值AT、A=T)替代A.将问题又归为离散属性的处理。 一棵完全决策树能非常准确地反映训练集中数据的特征,但因失去了一般代表性而无法用于对新数据的分类或预测,这种现象一般称为“过分拟合或过适应(over-fitting)。” ID3, C4.5是开放源码,可到Quanlan个人主页上下载 * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 应用例子(根据婚姻和收入把客户分成能偿还贷款或不能两类) 因素 Refund (有房子了) Marriage Divorce (离婚) Evade (拖欠贷款) How to Estimate Probabilities from Data? Class: P(C) = Nc/N e.g., P(evade=No) = 7/10, P(evade=Yes) = 3/10 For discrete attributes: P(Ai | Ck) = |Aik|/ |Cc| where |Aik| is number of instances having attribute Ai and belongs to class Ck Examples: P(Status=Married|No) = 4/7 P(Refund=Yes|Yes)=0 分类是否拖欠贷款(Yes/no) Example of Na?ve Bayes Classifier P(X|Class=No) = P(Refund=No|Class=No) ? P(Married| Class=No) ? P(Income=120K| Class=No) = 4/7 ? 4/7 ? 0.0072 = 0.0024 P(X|Class=Yes) = P(Refund=No| Class=Yes) ? P(Married| Class=Yes) ? P(Income=120K| Class=Yes) = 1 ? 0 ? 1.2 ? 10-9 = 0 Since P(X|No)P(No) P(X|Yes)P(Yes) Therefore P(No|X) P(Yes|X) = Class = No Given a Test Record: Na?ve Bayes Classifier If one of the conditional probability is zero, then the entire expression becomes zero Probability estimation: c: number of classes p: prior probability m: parameter Example of Na?ve Bayes Classifier A: attributes M: mammals N: non-mammals P(A|M)P(M) P(A|N)P(N) = Mammals no 匹配的情形 哺乳类(yes/no) Na?ve Bayes (Summary) Robust to isolated noise points Handle missing values by ignoring the instance during probability estimate calculations Robust to irrelevant attributes Independence assumption may not hold for some attributes U

文档评论(0)

sandaolingcrh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档