数据挖掘--课件ppt.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘--课件ppt

第三章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题 分类的流程 根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类? 分类的流程 步骤一:将样本转化为等维的数据特征(特征提取)。 所有样本必须具有相同数量的特征 兼顾特征的全面性和独立性 分类的流程 步骤二:选择与类别相关的特征(特征选择)。 比如,绿色代表与类别非常相关,黑色代表部分相关,灰色代表完全无关 分类的流程 步骤三:建立分类模型或分类器(分类)。 分类器通常可以看作一个函数,它把特征映射到类的空间上 如何避免过度训练 分类也称为有监督学习(supervised learning),与之相对于的是无监督学习(unsupervised learning),比如聚类。 分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。 建立分类模型需要学习一部分已知数据,如果训练时间过长,或者预测模型参数太多而样本较少,将导致过度训练(overfitting)。 如何避免过度训练 避免过度训练最重要一点是,模型的参数量应远小于样本的数量。 应建立训练集(training set)和测试集(test set)。 训练集应用于建立分类模型 测试集应用于评估分类模型 K折叠交叉验证(K-fold cross validation):将初始采样分割成K个子样本(S1,S2,...,Sk),取K-1个做训练集,另外一个做测试集。交叉验证重复K次,每个子样本都作为测试集一次,平均K次的结果,最终得到一个单一估测。 分类模型的评估 真阳性(True Positive): 实际为阳性 预测为阳性 真阴性(True Negative):实际为阴性 预测为阴性 假阳性(False Positive): 实际为阴性 预测为阳性 假阴性(False Negative):实际为阳性 预测为阴性 预测是否正确 预测结果 比如预测未知动物是鸟类还是爬行动物,阳性代表爬行动物,阴性代表非爬行动物,请大家阐述 TP=10,TN=8,FN=3,FP=2是什么意义 分类模型的评估 灵敏度(Sensitivity): TP/(TP+FN) 也称为查全率(Recall) 数据集共有13只爬行动物,其中10只被正确预测为爬行动物,灵敏度为10/13 特异度(Specificity): TN/(TN+FP) 数据集有10只非爬行动物,其中8只被预测为非爬行动物,特异度为8/10 精度(Precision): TP/(TP+FP) 分类器预测了12只动物为爬行动物,其中10只确实是爬行动物,精度为10/12 准确率(Accuracy): (TP+TN)/(TP+TN+FN+FP) 数据集包含23只动物,其中18只预测为正确的分类,准确率为18/23 分类模型的评估 对于非平衡(unblanced)的数据集,以上指标并不能很好的评估预测结果。 非平衡的数据集是指阳性数据在整个数据集中的比例很小。比如,数据集包含10只爬行动物,990只爬行动物,此时,是否预测正确爬行动物对准确率影响不大。 更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。 马修斯相关性系数定义为 分类模型的评估 ROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实现,其中TPR=TP/(TP+FN), FPR=FP/(FP+TN)。 大部分分类器都输出一个实数值(可以看作概率),通过变换阈值可以得到多组TPR与FPR的值。 第三章 分类方法 内容提要 分类的基本概念与步骤 基于距离的分类算法 决策树分类方法 贝叶斯分类 实值预测 与分类有关的问题 基于距离的分类算法的思路 定义4-2 给定一个数据库 D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={Cj1,Cj2,…,Cjk},则分类问题是要分配每个ti到满足如下条件的类Cj: sim(ti,Cj)=sim(ti,Cl) ,?Cl∈C,Cl≠Cj, 其中sim(ti,Cj)被称为相似性。 在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。 距离的计算方法有多种,最常用

文档评论(0)

sm80033 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档