- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验五 贝叶斯分类 实验内容: 生成目标邮件方案,Adventure Works 的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。 公司的数据库 Adventure Works DW 包含一个现有客户列表和一个潜在的新客户列表。创建一个目标邮件方案,包含决策树和贝叶斯分类挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。 决策树模型(Decision Tree) ID3方法基本思想 当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3(Interative Dicmiser versions3). 原理: 首先找出最有判别力的特征,把数据分成多个子集,每个子集又选择最有判别力的特征进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树。 J.R.Quinlan的工作主要是引进了信息论中的互信息,他将其称为信息增益(information gain),作为特征判别能力的度量,并且将建树的方法嵌在一个迭代的外壳之中。 平均互信息 I(U,V) = H(U) ? H(U|V) I(U,V)称为U和V之间的平均互信息.它代表接收到符号集V后获得的关于U的信息量。 对输入端U只有U1,U2两类,互信息的计算公式为: 实例计算 对于气候分类问题进行具体计算有: ⒈ 信息熵的计算 信息熵: 类别出现概率: |S|表示例子集S的总数,|ui|表示类别ui的例子数。 对9个正例和5个反例有: P(u1)=9/14 P(u2)=5/14 H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit ⒉ 条件熵计算 条件熵: 属性A1取值vj时,类别ui的条件概率: A1=天气 取值 v1=晴,v2=多云,v3=雨 在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故: P(v1)=5/14 P(v2)=4/14 P(v3)=5/14 取值为晴的5 个例子中有2 个正例、3个反例,故: P(u1/v1)=2/5, P(u2/v1)=3/5 同理有:P(u1/v2)=4/4, P(u2/v2)=0 P(u1/v3)=2/5, P(u2/v3)=3/5 H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4) +0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit ⒊ 互信息计算 对 A1=天气 处有: I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 类似可得: I(气温)=0.029 bit I(湿度)=0.151 bit I(风)=0.048 bit ⒋ 建决策树的树根和分枝 ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是: F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14} 其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。 ⒌ 递归建树 分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息. (1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。 (2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。 这样就得到下图的决策树。 C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。C4.5是在ID3基础上发展起来的决策树生成算法,由J.R.Quinlan在1993年提出。 作业 1 写出使用ID3方法建立判断天气类别决策树模型的计算过程。并判断某天早晨气候特征为 天气
您可能关注的文档
- 高一数学函数模型的应用实例探析.ppt
- 高中信息技术第二章探析.ppt
- 高中政治社会主义市场经济课件新课标人教版必修探析.ppt
- 工程项目管理第三章探析.ppt
- 计算机会计信息系统的内部控制与审计的一个入门级课程概述.ppt
- 技术发明与革新概述.ppt
- 技术服务贸易ch概述.ppt
- 技术交底作业指导书培训概述.ppt
- 技术进步与经济增长概述.ppt
- 技术进步与人力资本对城乡收入差距的影响概述.ppt
- Unit 8 Lesson 1(课件)英语冀教版2024八年级上册.pptx
- Unit 7 课时5 Lesson 5(课件)英语冀教版2024八年级上册.pptx
- 冀教版(2024)新教材八年级英语上册Unit 3 课时1 Lesson 1 What makes you unique?分层作业.docx
- 人教版(2024)新教材八年级生物上册第五单元第一章第1节《生物与环境的相互作用》名师课件.pptx
- 2025届高考:高中物理回归课本知识汇总-人教版电磁学部分.pdf
- 初中中考数学重点题型全归纳:阴影部分图形面积求解问题(2种类型7种题型)(老师版).docx
- 初中中考数学重点题型全归纳:阴影部分图形面积求解问题(2种类型7种题型)(学生版).docx
- 冀教版(2024)新教材八年级英语上册Unit 3 课时3 Lesson 3(课件)英语冀教版2024八年级上册.pptx
- Unit 3 课时2 Lesson 2(课件)英语冀教版2024八年级上册.pptx
- Unit 5 课时3 Lesson 3 Learning by doing(课件)英语冀教版2024八年级上册.pptx
最近下载
- 校园安全法治教育与欺凌事件预防讲座PPT.pptx VIP
- 《职业道德酒店案例》课件.pptx VIP
- FM200计算书.doc VIP
- 20211025-华安证券-锐明技术-002970.SZ-三季度业绩出现波动,商用车智能网联化市场空间大.pdf VIP
- 高素质农民培训行政第一课.pptx
- 高中政治必修二《经济与社会》100题(教师版).docx VIP
- 2025安c考试试题及答案.doc VIP
- 专题03 把句子说完整(讲义+试题) -2023年一升二语文暑假衔接课(统编版).docx VIP
- 医养大数据平台0327(60页PPT).pptx VIP
- 新课标背景下的大单元教学研究:国内外大单元教学发展与演进综述 .pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)