- 1、本文档共78页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2. 机器学习 Simon对学习的定义是:”如果一个系统能够通过执行某种过程而改进它的性能. 这就是学习” 目前常用的机器学习方法 (1)决策树 决策树是一种分类方法,起源于概念学习系统。有名的决策树方法有ID3,C4.5 ,还有CART和Assistant. 决策树构造的输入是一组带有类别标记的数据,构造的结果是一棵二叉或多叉树。树中节点可分为两类:决策节点和叶子节点。 年龄? 信用等级? 学生? YES NO YES NO YES 否 是 30--40 〉40 〈30 一般 良好 购买电脑的分类模型 (2) ??? 遗传算法 遗传算法是一种新的优化技术,基于生物进化的概念设计了一系列的过程来达到优化的目的。这些过程有基因组合、交叉、变异和自然选择。 遗传算法可用于分类等问题的求解,最大的优点是效率高(适合用并行算法),但有过早收敛的缺点. (3)? 关联分析 关联规则和时序分新 关联规则是由R.Agrawal等1993年提出的,表示数据库中一组对象之间某种关联关系的规则(例如,“同时发生”或者“从一个对象可以推出另一个对象),关联规则挖掘的一般对象是事务(Tansactional)数据库. 这种数据库的一个主要应用是零售业,比如超级市场的管理。 例如,5%的顾客购买“挪亚牌”面包(用项目A表示),买“挪亚牌”面包的顾客8%也买“挪亚牌”黄油(用项目B表示),则这条关联规则可表示为 A→B(5%,8%),关联规则提供的信息用作商品的销售目录设计、商场货物布置、生产安排、商品广告邮寄分析等。 (4) 神经网络 从结构上模仿生物神经网络,是一种通过训练来学习的非线形预测模型。可以完成分类、回归等多种数据挖掘任务; 神经网络是指一类新的计算模型,它是模仿人脑神经网络的结构和某些工作机智而建立的一种计算模型.其特点是利用大量简单的计算单元连成网络,来实现大规模并行计算.神经网络的工作机理是通过学习,改变神经元之间的连接程度. 多层感知机,反传网络,自适应映射网络,徐雷的阴阳机,史忠植提出的神经场模型 1.5 数据挖掘的功能 数据挖掘功能 ----用于指定数据挖掘任务中要找的模式类型。 数据挖掘任务 ------描述和预测。 一、概念/类描述:定性和对比(特征化和区分) 对含有大量数据的数据集合进行概述性的总结,并获得简明、准确的描述---概念描述 通过综合、汇总、归纳和对比,分析事物的特征 Ex1: 一个数据挖掘系统要从我校职工数据库中,挖掘出讲师情况的概要总结,并给出讲师的概念描述 数据挖掘系统首先利用SQL查询语句收集有关讲师的信息数据,之后利用数据概要总结挖掘算法(如概念爬升)获得有关讲师情况的概要描述,总结并用概念描述规则描述: “62%(age30) and (age24) 概念化输出可以用多种形式。包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。 结果描述也可以用概化关系(generalized relation)或规则形式(称作特征规则)提供 对比是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。 Ex2: 一个数据挖掘系统需要从我校职工数据库中,针对我校副教授的情况(对比数据集),对讲师情况(目标数据集)进行对比概要总结,并给出讲师对比概念描述 “讲师:78%(paper3) and (teaching course2) “副教授:66%(paper=3) and (teaching course3) 二、关联分析 (1)发现数据库中数据间的相互关联 (2)多维关联 vs. 单维关联 例如: Ex3:age(X, “20..29”) ^ income(X, “20..29K”) ? buys(X, “PC”) [support = 2%, confidence = 60%] Ex4:buys(T, “computer”) ? buys(T, “software”) [support = 1%, confidence = 75%] 对于关联规则可以用: (1) 规则的支持度(support)。规则的支持度表示满足规则的样本百分比。支持度是概率,表示同时包含X和Y事务,即项集X和Y的并。 (2)规则的置信度(confidence)。置信度是条件概率,即包含X的事务也包含Y的概率。 三、聚类分析 每个类的标识事先不确定,把一组对象按照相似性归成若干类别,即“物以类聚”。 基本的原则:属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。 Ex5: 对在一个商场购买力较大的顾客居住地进行聚类分析,以
您可能关注的文档
最近下载
- 安全生产推进小组成立文件.docx VIP
- (精)防人因培训.ppt
- 4.3 信息系统在社会应用中的优势及局限性 课件-2022-2023学年粤教版(2019)高中信息技术必修2.pptx VIP
- 2021医院必威体育官网网址培训课件.pptx
- 必威体育精装版GBT20647.9物业服务管理体系一整套文件(手册+程序文件+管理制度+表单).pdf
- 9.2 提高防护能力 2024-2025学年七年级道德与法治上册高效备课精品课件(统编版2024).pptx VIP
- xx小学学平险问题专项整治实施方案.doc
- 可靠性试验培训.ppt
- 2.3 涡流、电磁阻尼和电磁驱动 教学设计 -2024-2025学年高二下学期物理人教版(2019)选择性必修第二册.docx
- 国家建筑标准设计图集15J207-1 单层防水卷材屋面建筑构造(一)金属屋面.pdf
文档评论(0)