朴素贝叶斯分类算法的应用多元统计实验报告剖析.pptVIP

朴素贝叶斯分类算法的应用多元统计实验报告剖析.ppt

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用多元统计实验报告 梦晴 朴素贝叶斯分类算法 算法简介 算法描述 算法优点 算法流程 算法实例 算法结果分析 算法简介 算法描述 (3)由于P(X) 对于所有类为常数,只需要P(X |Ci)P(Ci)最大即可。如果类的先验概率未知,则通常假定这些类是等概率的;即,P(C1) = P(C2) = ... = P(Cm)。并据此对P(Ci | X)最大化。否则,我们最大化P(X |Ci)P(Ci)。注意,类的先验概率可以用P(Ci) = si /s计算;其中,si是类C中的训练样本数,而s是训练样本总数。 (4)给定具有许多属性的数据集,计算P(X |Ci)的开销可能非常大。为降低P(X |Ci)计算的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样, 概率P(X1|Ci),P(X2|Ci),…P(Xn|Ci)可以由训练样本估值,其中 (a)如果Ak是连续值属性,则P(Xk|Ci)=Sik/Si,其中Sik是在属性Ak上具有值Xk的类Ci的样本数,而Si是Ci中的训练样本数。 (b)如果Ak是连续值属性,则通常假定该属性服从高斯分布,因而, 其中,给定类Ci的训练样本属性Ak的值, 是属性Ak的高斯密度函数,而 分别为平均值和标准差。 (5)为对未知样本X分类,对每个类Ci,计算P(Xk|Ci)P(Ci)。样本X被指派到类Ci,当且仅当 换言之,X被指派到其P(Xk|Ci)P(Ci)最大的类Ci。 算法优点: (1)算法逻辑简单,易于实现; (2)算法实施的时间、空间开销小: (3)算法性能稳定,对于不同特点的数据其分类性能差别不大,即模型的健壮性比较好 朴素贝叶斯分类的流程 算法实例:检测SNS社区中不真实账号 首先设C=0表示真实账号,C=1表示不真实账号。 1、确定特征属性及划分 选择三个特征属性:a1:日志数量/注册天数,a2:好友数量/注册天数,a3:是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。 下面给出划分:a1:{a1=0.05, 0.05a10.2, a1=0.2}, a2:{a2=0.1, 0.1a20.8, a2=0.8}, a3:{a3=0(不是),a3=1(是)}。 2、获取训练样本 这里使用人工检测过的1万个账号作为训练样本。 3、计算训练样本中每个类别的频率 用训练样本中真实账号和不真实账号数量分别除以一万,得到: P(C=0)=8900/10000=0.89 P(C=1)=1100/10000=0.11 4、计算每个类别条件下各个特征属性划分的频率 P(a20.8|C=0)=0.2 P(a2=0.1|C=1)=0.7 P(0.1a20.8|C=1)=0.2 P(a20.8|C=1)=0.1 P(a3=0|C=0)=0.2 P(a3=1|C=0)=0.8 P(a3=0|C=1)=0.9 P(a3=1|C=1)=0.1 5、使用分类器进行鉴别 下面我们使用上面训练得到的分类器鉴别一个账号,这个账号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2。即: x:a1=0.1, a2=0.2, a3=0 P(C=0)P(x|C=0) =P(C=0)P(0.05a10.2|C=0)P(0.1a20.8|C=0)P(a3=0|C=0) =0.89*0.5*0.7*0.2=0.0623 P(C=1)P(x|C=1) =P(C=1)P(0.05a10.2|C=1)P(0.1a20.8|C=1)P(a3=0|C=1) =0.11*0.1*0.2*0.9=0.00198 经鉴别,该账号归类于真实账号。 * 2015 * 朴素贝叶斯(Naive Bayes)分类算法是贝叶斯分类算法中的一种最简单、有效的而且在实际使用中很成功的分类算法,其性能可以与神经网络、决策树相媲美,甚至在某些场合优于其它分类算法。图1 直观地描述了朴素贝叶斯分类模型的结构特点。 该模型中,假设所有的属 性都独立于类变量C,即每一 个属性变量都以类变量作为惟 一的父节点。这种假设大大降 低了计算的复杂度,简化所需的计算,且具有较高的精确度,这一假设称作条件独立。做此假定是为了简化所需的计算,并在此意义下称为“朴素的”。使用朴素贝叶斯分类模型进行分类的做法是通过概率计算,从待分类的实例的属性值A1 , A2 ,...An 求出最可能的分类目标值。 (1)每个数据样本用

文档评论(0)

麻将 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档