北方工业大学数据仓库挖掘Bayes分类方法.pptVIP

北方工业大学数据仓库挖掘Bayes分类方法.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容 Bayes分类 基于实例的分类 集成方法 第三十一页,共五十二页。 基于实例的分类(1) 存储训练记录 使用训练记录来预测未知记录的类别 第三十二页,共五十二页。 基于实例的分类(2) 例子: 机械学习(Rote-learner) 记住所有训练数据,只有当类别未知的记录与某训练记录的所有属性的值都匹配时,才对其分类。 最近邻居(Nearest neighbor) 用k个最临近点执行分类。 第三十三页,共五十二页。 最近邻居分类(1) 基本思想: If it walks like a duck, quacks like a duck, then it’s probably a duck Training Records Test Record Compute Distance Choose k of the “nearest” records 第三十四页,共五十二页。 最近邻居分类(2) 基本条件 存储的训练实例 实例间距离的度量方法 确定K值, 即邻居的数量 对未知记录分类: 计算与训练记录的距离 确定最近的k个邻居 使用k个邻居的类别对类别未知的数据进行分类 (如投票) 第三十五页,共五十二页。 最近邻居的定义 记录x的k-最近邻居是指与x距离最近的k个数据点 第三十六页,共五十二页。 距离的度量 计算两点间的距离: 欧式距离(Euclidean distance) 从最近邻居中确定类别 从k个最近邻居中做投票,取多数 根据距离确定不同点的权重 w = 1/d2 第三十七页,共五十二页。 数据仓库与 数据挖掘技术 第7章 其它分类方法 第一页,共五十二页。 主要内容 Bayes分类 基于实例的分类 集成方法 第二页,共五十二页。 Bayes分类器 一个用于解决分类问题的概率框架 条件概率: Bayes定理: 第三页,共五十二页。 Bayes定理举例 给定: 50%的脑膜炎患者脖子僵硬 人得脑膜炎的概率是1/50,000 脖子僵硬的人的概率是 1/20 若某个患者脖子僵硬,则他患脑膜炎的概率是多少? 第四页,共五十二页。 Bayes分类器 将每个属性及类别标记视为随机变量 给定一个具有属性集合(A1, A2,…,An)的记录 目标是预测类别属性C 具体而言,要寻找使得P(C| A1, A2,…,An )最大的类别C 第五页,共五十二页。 Bayes分类器 方法: 利用Bayes定理计算所有类别C的后验概率P(C | A1, A2, …, An) 选择使如下概率值最大的类别C P(C | A1, A2, …, An) 等价于使如下概率值最大 P(A1, A2, …, An|C) P(C) 第六页,共五十二页。 朴素Bayes分类器 假定给定类别的条件下属性Ai之间是独立的: P(A1, A2, …, An |C) = P(A1| C) P(A2| C)… P(An| C) 可以从Ai和C中估算出P(Ai| C) 类别为使P(Cj) ? P(Ai| Cj)最大的类Cj 第七页,共五十二页。 如何从数据中估算概率 类: P(C) = Nc/N e.g., P(No) = 7/10, P(Yes) = 3/10 对离散属性k: P(Ai | Ck) = |Aik|/ Nc 其中|Aik|是属于类Ck,并具有属性值Ai的记录数量 如: P(Status=Married|No) = 4/7 P(Refund=Yes|Yes)=0 第八页,共五十二页。 如何从数据中估算概率 对连续属性: 将区间离散化至不同的桶 违背了独立性假设 2路分割: (A v) 或 (A ≥ v) 概率密度估计: 假设属性的取值服从正态分布 使用已有数据来估算分布的参数(如, 均值和方差) 若概率分布已知,则使用其来估算条件概率P(Ai|c) 第九页,共五十二页。 如何从数据中估算概率 正态分布: 对(Income, Class=No): 若Class=No sample mean = 110 sample variance = 2975 第十页,共五十二页。 朴素Bayes分类举例 P(X|Class=No) = P(Refund=No|Class=No) ? P(Married| Class=No) ? P(Income=120K| Class=No) = 4/7 ? 4/7 ? 0.0072 = 0.0024 P(X|Class=Yes) = P(Refund=No| Class=Yes) ? P(Marri

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体 重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档