- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术十课Bayes分类方法
主要内容 朴素Bayes分类 Bayes网络 集成方法 Bayes分类器 一个用于解决分类问题的概率框架 条件概率: Bayes定理: Bayes定理举例 给定: 50%的脑膜炎患者脖子僵硬 人得脑膜炎的概率是1/50,000 脖子僵硬的人的概率是 1/20 若某个患者脖子僵硬,则他患脑膜炎的概率是多少? Bayes分类器 将每个属性及类别标记视为随机变量 给定一个具有属性集合(A1, A2,…,An)的记录 目标是预测类别属性C 具体而言,要寻找使得P(C| A1, A2,…,An )最大的类别C Bayes分类器 方法: 利用Bayes定理计算所有类别C的后验概率P(C | A1, A2, …, An) 选择使如下概率值最大的类别C P(C | A1, A2, …, An) 等价于使如下概率值最大 P(A1, A2, …, An|C) P(C) 朴素Bayes分类器 假定给定类别的条件下属性Ai之间是独立的: P(A1, A2, …, An |C) = P(A1| Cj) P(A2| Cj)… P(An| Cj) 可以从Ai和Cj中估算出P(Ai| Cj) 类别为使P(Cj) ? P(Ai| Cj)最大的类Cj 如何从数据中估算概率 类: P(C) = Nc/N e.g., P(No) = 7/10, P(Yes) = 3/10 对离散属性k: P(Ai | Ck) = |Aik|/ Nc 其中|Aik|是属于类Ck,并具有属性值Ai的记录数量 如:P(Status=Married|No) = 4/7P(Refund=Yes|Yes)=0 如何从数据中估算概率 对连续属性: 将区间离散化至不同的桶 违背了独立性假设 2路分割: (A v) 或 (A ≥ v) 概率密度估计: 假设属性的取值服从正态分布 使用已有数据来估算分布的参数(如, 均值和方差) 若概率分布已知,则使用其来估算条件概率P(Ai|c) 如何从数据中估算概率 正态分布: 对(Income, Class=No): 若Class=No sample mean = 110 sample variance = 2975 朴素Bayes分类举例 朴素Bayes分类举例 朴素Bayes分类器小结 抗噪声能力强 在概率估算阶段,通过忽略整条记录来处理缺失值 抗无关属性的能力强 属性独立的假设可能对某些属性不成立 可以使用Bayes信度网络(Bayesian Belief Networks, BBN) 主要内容 朴素Bayes分类 Bayes网络 集成方法 Bayes网络 20世纪80年代,Bayes网络(Bayes Network)成功应用于专家系统,成为表示不确定性专家知识和推理的一种流行的方法。 在不确定性表示、可信度计算上还是使用概率方法。 实现时,要根据应用背景采用近似计算方法。 事件的独立性 独立:如果X与Y相互独立,则 P(X,Y) = P(X)P(Y) P(X|Y) = P(X) 条件独立:如果在给定Z的条件下,X与Y相互独立,则 P(X|Y, Z) = P(X|Z) 实际中,条件独立比完全独立更普遍 联合概率 联合概率:P(X1, X2, …, XN) 如果相互独立: P(X1, X2, …, XN) = P(X1) P(X2) …P(XN) 条件概率: P(X1, X2, …, XN) = P(X1|X2, …, XN) P(X2, …, XN) 迭代表示: P(X1, X2, …, XN) = P(X1) P(X2| X1) P(X3| X2X1)…P(XN|XN-1, …, X1) = P(XN) P(XN-1| XN) P(XN-2| XN-1XN)…P(X1|X2, …, XN) 实际应用中就是利用条件独立来简化网络。 Bayes网络 一系列变量的联合概率分布的图形表示。 一个表示变量之间相互依赖关系的数据结构,图论与概率论的结合。 Bayes网络(续) 两部分 结构图,有向无环图(Directed Acyclic Graph, DAG),每个节点代表相应的变量。 条件概率表(Conditional Probability Table, CPT),一系列的概率值,表示局部条件概率分布,即P(node|parents) 。 Bayes网络的构造 选择变量,生成节点 从左至右(从上到下),排列节点 填充网络连接弧,表示节点之间的关
文档评论(0)