- 1、本文档共87页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.0数据挖掘概述
1.5 数据挖掘模型 4.建立模型(Modeling)阶段 具体地,包括: 选择建模技术:确定数据挖掘算法和参数,可能会利用多个算法; 测试方案设计:设计某种测试模型的质量和有效性的机制; 模型训练:在准备好的数据集上运行数据挖掘算法,得出一个或者多个模型; 模型测试评估:根据测试方案进行测试,从数据挖掘技术的角度确定数据挖掘目标是否成功。 1.5 数据挖掘模型 5.模型评估(Evaluation)阶段 具体地,包括:??????? 结果评估:从商业角度评估得到的模型,甚至实际试用该模型测试其效果; 过程回顾:回顾项目的所有流程,确定每一个阶段都没有失误; 确定下一步工作:根据结果评估和过程回顾得出的结论,确定是部署该挖掘模型还是从某个阶段开始重新开始。 1.5 数据挖掘模型 6.部署(Deployment)阶段 具体地,包括:?????? 部署计划:对在业务运作中部署模型作出计划; 监控和维护计划:如何监控模型在实际业务中的使用情况,如何维护该模型; 作出最终报告:项目总结,项目经验和项目结果; 项目回顾:回顾项目的实施过程,总结经验教训;对数据挖掘的运行效果做一个预测。 1.5 数据挖掘模型 为保证项目的可靠性和可管理性,CRISP-DM规定一个数据挖掘项目应该产生11个报告: 业务理解报告 原始数据收集报告 数据描述报告 数据探索报告 数据质量报告 数据集描述报告 模型训练报告 模型评估报告 部署计划 监控和维护计划 总结报告 通过这些报告,可以有效地控制数据挖掘项目进程,减少开发风险。 1.6 实现流程 各步骤之间互相影响、反复调整,形成一种螺旋式上升过程。 1.6 实现流程 数据准备 KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不合适直接在这些数据上进行知识挖掘,需要做一些准备工作,也就数据的预处理。数据预处理包括数据的选择(选择相关数据)、净化(消除噪音、冗余数据)、推测(推算缺值数据)、转换(离散型数据与连续型数据之间的转换)、数据缩减(减少数据量)等。 数据准备是KDD的第一个步骤,也是比较重要的一个步骤。数据准备得好坏将直接影响数据挖掘的效率和准确度以及最终模式的有效性。 1.6 实现流程 数据挖掘 数据挖掘是最为关键的步骤,它根据KDD的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式模型。目前采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等。 1.6 实现流程 模式的评估、解释 通过上面步骤所得到的模式,有可能是没有意义或没有实用价值的,因此需要评估,确定那些是有效的、有用的模式。此外,大部分模式是用数学手段描述的表达式,很难被人理解,还需要将其解释成可理解的方式以呈现给用户。 1.6 实现流程 知识运用 发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。 KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。 1.6 实现流程 数据挖掘过程的分步实现,不同的步骤需要不同的专业人员参与完成,大体分为三类: 1)业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 2)数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 3)数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 1.6 实现流程 从上可见,数据挖掘是一个多领域专家合作的过程,也是一个在资金上和技术上高投入的过程。这一过程要反复进行,在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。 数据挖掘 Increasing potential to support business decisions End User Business Analyst Data Analyst DBA Making Decisions Data Presentation Visualization Techniques Data Mining Info
文档评论(0)