- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘课程复习提纲(计算机、软件、网络) 有关考试 题型: 一、填空题(20 分,每题2 分) 二、判断题(10 分,每题1 分) 三、计算题(40 分,每题10 分)——分类、聚类、关联分析、异常挖掘各一题 四、问答题(30 分,每题10 分) 基本要求:掌握数据预处理、分类、聚类、关联分析、异常挖掘的基本方法,及每 类方法的应用场景(每类方法理解、熟悉一个例子)。算法重点掌握k-means、DBSCAN、 ID3(C4.5)、Bayes、KNN、Appriori 及基于距离、密度、聚类的异常检测方法。 第一章 绪论 1 数据挖掘的定义 技术层面:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据 中,提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。 商业层面:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量 业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 2 数据挖掘的任务 预测任务:根据其它属性的值预测特定(目标)属性的值,如回归、分类、异常检测。 描述任务:寻找概括数据中潜在联系的模式,如关联分析、演化分析、聚类分析、序列模 式挖掘。 (1) 关联(Association)分析 关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式 知识(又称为关联规则) 。关联分析广泛用于市场营销、事务分析等领域。 (2) 分类(Classification)分析 分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型 或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。 (3) 聚类(Clustering)分析 “物以类聚,人以群分” 。聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对 象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义。 聚类与分类的区别 聚类问题是无指导的:没有预先定义的类。 分类问题是有指导的:预先定义有类。 扑克牌的划分与不同年龄群体(老、中、青)的划分 (4) 演化(Evolving)分析 演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。 如:商品销售的周期(季节)性。 (5) 异常(Outlier)分析 异常分析就是对异常数据的挖掘、分析。比如商业欺诈行为的自动检测,网络入侵检测, 金融欺诈检测,反洗钱,犯罪嫌疑人的调查等。 (6) 序列模式(Sequential Pattern)挖掘 分析数据间的前后序列关系 3 数据挖掘的对象 包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网 4.知识发现的主要步骤: (1) 数据清洗(data clearning) 。其作用是清除数据噪声和与挖掘主题明显无关的数据。 (2) 数据集成(data integration) 。其作用是将来自多数据源中的相关数据组合到一起。 (3) 数据转换(data transformation) 。其作用是将数据转换为易于进行数据挖掘的数据存储形式。 (4) 数据挖掘(data mining) 。其作用是利用智能方法挖掘数据模式或规律知识。 (5) 模式评估(pattern evaluation) 。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知 识。 (6) 知识表示(knowledge presentation) 。其作用是利用可视化和知识表达技术,向用户展示所挖掘 的相关知识。 数据挖掘只是知识发现过程的一个步骤。 5 数据挖掘产生背景及应用领域 产生背景:“数据过剩”、“信息爆炸”与“知识贫乏”使得人们淹没在数据中, 难以制定 合适的决策! 应用领域:在许多行业都有广泛应用,有大量数据的领域就有应用。 (1)数据挖掘在商业领域中的应用 市场分析和管理,公司分析和风险管理,欺诈行为检测和异常模式的发现,自动趋势预测,… (2)数据挖掘在计算机领域中的应用 信息安全:入侵检测,垃圾邮件的过滤,互联网信息/使用挖掘,智能回答系统… (3)其它领域中的应用 数据挖掘在工业制造方面的应用,生物信息或基因的数据挖掘,体育竞赛,天文学,军事 情报分析(反恐) ,电视观众预测,多媒体、空间数据分析,…
您可能关注的文档
最近下载
- 中国专利奖申报书.docx VIP
- 约翰克兰John Crane SE系列 培训指南.pdf VIP
- 结构化面试护士50道面试题附答案.docx VIP
- 山东省三级老年病医院基本标准(2023).docx VIP
- 统编版小学三年级上册语文精品课件 司马光.ppt VIP
- ancient-chinese-philosophy中国古代哲学.ppt VIP
- 4.3海-气相互作用课件 高中地理人教版(2019)选择性必修一.pptx VIP
- 砂土地基钢板桩施工振动锤选型及应用-华北交通工程.pdf
- 10SG614-2 砌体填充墙构造详图(二)(与主体结构柔性连接).pdf VIP
- 超声检测技术.ppt VIP
文档评论(0)