数据挖掘基础课稿.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.4 朴素贝叶斯(Naive Bayes)分类器 朴素贝叶斯分类器是一种基于贝叶斯理论的分类器。它的特点是以概率形式表达所有形式的不确定,学习和推理都由概率规则实现,学习的结果可以解释为对不同可能的信任程度。 P(H)是先验概率,或H的先验概率。P(H|X)是后验概率,或条件X下,H的后验概率。后验概率P(H|X)比先验概率P(H)基于更多的信息。P(H)是独立于X的。 假定数据样本世界由水果组成,用它们的颜色和形状描述。假定X表示红色和圆的,H表示假定X是苹果,则P(H|X)反映当我们看到X是红色并是圆的时,我们对X是苹果的确信程度。 朴素贝叶斯分类能够奏效的前提是,P(X|H) 相对比较容易计算。假定X表示红色和圆的,H表示假定X是苹果;则P(X|H)表示已知苹果,它既红又圆的概率。 3.5 期望最大化(EM) 期望最大化(EM)方法和朴素贝叶斯方法有着共同的理论基础。期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。 样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。 3.5 期望最大化(续) 如果参数适当,EM 算法能得到较好的分类结果,但计算速度相对较慢。其具体的步骤如下: 一、初始参数估计,将未标记的样本按朴素贝叶斯分类方法进行类标注。 二、反复迭代E步骤和M步骤,直到收敛。 三、E步骤:对于每个未标记的样本,按下式计算类标记的期望值。 四、M步骤:利用E步骤计算出的期望值,按下式用已标记样本和未标记样本重新估计新的分类器参数。 3.6 K-最近邻分类 K-近邻(K-NN)分类是基于范例的分类方法,它的基本思想是:给定待分类样本后,考虑在训练样本集中与该待分类样本距离最近(最相似)的K 个样本,根据这K 个样本中大多数样本所属的类别判定待分类样本的类别。 它的特例是1- NN,即分类时选出待分类样本的最近邻,并以此最近邻的类标记来判断样本的类。 K-NN算法的优点在于它有较高的精确程度,研究表明,K-NN的分类效果要明显好于朴素贝叶斯分类、决策树分类。 3.6 K-最近邻分类(续) 最近邻分类的算法步骤如下: 一、以向量空间模型的形式描述各训练样本。 二、在全部训练样本集中选出与待分类样本最相似的K个样本。K值的确定目前没有很好的方法,一般采用先定一个100左右的初始值,然后再调整。 三、将待分类样本标记为其K个邻居中所属最多的那个类别中。 3.7 聚类分析 为达到全局最优,基于划分的聚类会要求穷举所有可能的划分。聚类技术将数据元组视为对象。它将对象划分为群或聚类,使得在一个聚类中的对象“类似”,但与其它聚类中的对象“不类似”。 绝大多数应用采用了以下两个比较流行的基于划分的方法,这些基于划分的聚类方法对在中小规模的数据库中发现球状簇很适用。 (1)k-means算法,在该算法中,每个簇用该簇中对象的平均值来表示。 (2)k-medoids算法,在该算法中,每个簇用接近聚类中心的一个对象来表示。 3.7 聚类分析(续) 常用的相似程度度量 余弦夹角: Dice系数: Jaccard系数: 四、模型上的模型 4.1 装袋 / 提升 给定s个样本的集合S。装袋(Bagging)过程如下。对于迭代t ( t = 1, 2,..., T ),训练集St采用放回选样,由原始样本集S选取。 由于使用放回选样,S的某些样本可能不在St中,而其它的可能出现多次。 由每个训练集St学习,得到一个分类法Ct。为对一个未知的样本X分类,每个分类法Ct返回它的类预测,算作一票。 装袋的分类法C*统计得票,并将得票最高的类赋予X。通过取得票的平均值,装袋也可以用于连续值的预测。 4.1 装袋 / 提升(续) 提升(Boosting)过程如下:每个训练样本赋予一个权,并学习得到一系列分类法。 对于迭代t ( t = 1, 2,..., T ),学习得到分类法Ct后,更新权,使得随后的分类法Ct+1“更关注”Ct的分类错误。 最终的提升分类法C*组合每个分类法的表决,这里每个分类法的表决是其准确率的函数。 通过取得票的平均值,提升算法也可以扩充到连续值预测。 4.2 共同训练(Co-Training) 共同训练算法用两个不同的“视图”(即特征集合)来描述文本的特征。 基本思路:每个视图对应一个学习机,而每个学习机都根据自身已学到的规律来标记“最有把握”的无标记样本,然后将这个(或这几个)新标记的样本加入训练样本,并扩展后的训练样本提供给另一个学习机进行学习。如此反复,直到满足一定的条件为止。 该算法中所用到

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档