- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2002-6-2 数据挖掘:概念和技术 数据挖掘技术介绍 数据挖掘的发展动力 ---需要是发明之母 数据爆炸问题 数据自动收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。 数据极大丰富(data rich),知识极其匮乏(knowledge poor) 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据挖掘的案例:“啤酒”和“尿布” 一则广为流传的案例:啤酒和尿布的故事 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性,他们往往也同时购买啤酒。 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之类的佐酒小食品、男士们日常生活用品就近布置。 结果:上述几种商品的销量几乎马上成倍增长。 数据、信息、知识、理解和先知 系统学专家Russell Ackoff博士认为人类大脑包涵的内容,分为五类: 数据(Data):符号的集合,未加工、较为原始的形态 信息(Information): 数据经过处理后,有意义的,具有利用价值的,能够回答4W为(“who”,“what”,“where”,and “when”)等问题 知识(Knowledge): 实践中产生、经过实践检验的一种客观规律。能够回答“how”的问题 理解(Understanding): “why”的正确评价?? 先知(Wisdom): 理解的进一步提升 什么是数据挖掘? 从大量数据中提取或发现(挖掘)知识的过程。 从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 数据集:一组事实F,如关系数据库中的记录 模式:一个用语言L表示的一个表达式E,它可以用来描述数据集F的一个子集FE ,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。 过程:需要多阶段的处理,涉及数据准备、模式有哪些信誉好的足球投注网站、知识评价以及反复的修改求精。 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘的步骤 数据准备? 数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取 数据挖掘时,需要 明确任务如数据总结、分类、聚类、关联规则发现、序列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。 数据挖掘的步骤 结果的解释评估(interpretation and evaluation) 对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户易于理解的形式表示。 数据挖掘: 多个学科的融合 数据挖掘的主要功能 ——可以挖掘哪些模式? 一般功能 描述性的数据挖掘 预测性的数据挖掘 通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括: 概念/类描述: 特性化和区分(定性与对比) 关联分析 分类和预测 聚类分析 孤立点分析 趋势和演变分析 概念/类描述:特征化和区分(定性与对比) 一个概念:对一个包含大量数据的数据集合总体情况的概述。 概念描述(concept description):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。 概念描述的主要方法: 对目标数据进行概述性的总结,数据泛化。 对两个数据集合概化后,进行对比并将对比结果进行概化。(以表格或对比规则形式给出) 如一个大学中讲师、副教授的情况 讲师:75% (papers3) and (teaching courses2) 副教授:66% (papers=3) and (teaching courses=2) 关联规则 关联规则挖掘就是发现大量数据中项集之间有趣的关联 关联规则挖掘的典型案例:购物篮问题 在商场中拥有大量的商品(项目),如:牛奶、面包等,客户将所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客的购买习惯: 哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 一般用户的购买过程中是否存在一定的购买时间序列? 关联规则 基本表示形式: 前提条件?结论[支持度, 置信度] buys(x,“diapers”) ?buys(x, “beers”)
您可能关注的文档
最近下载
- 学堂在线网课《生活英语读写》课后作业单元考核答案.docx VIP
- 2025年第42届全国中学生物理竞赛预赛试题(学生版+解析版) .pdf VIP
- 安全牛:API安全技术应用指南(2024版).pdf VIP
- 《NB 35074-2015 水电工程劳动安全与工业卫生设计规范》.pdf
- 2024年浙江省中考统考科学试卷试题真题(含答案解析).pdf VIP
- 《吴门验方》学习笔记.docx VIP
- 新目标大学英语-《综合教学教程》第四册(WELearn答案解析).DOC VIP
- 几何画板在小学数学教学中的应用.pdf VIP
- The Crucible《激情年代(1996)》完整中英文对照剧本.docx VIP
- 2025年河南省高考物理试卷(含答案解析).docx
文档评论(0)