数据挖掘相关理论方法介绍v1.0.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘相关理论方法介绍v1.0

* * * * * * * 数据挖掘过程必备元素 – 数据挖掘阶段 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,比便更好地利用,因此选择一款合适的数据挖掘工具是十分必要的。 数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此,在选择数据挖掘工具的时候,要全面考虑多方面因素。 选择数据挖掘工具需要考虑的因素 类别 功能和方法 可伸缩性 操作简易性 可视化 开放性 数据挖掘过程必备元素 – 数据挖掘阶段 数据挖掘工具的类别 数据挖掘工具根据其适用范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并做了优化;通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。 数据挖掘的功能和方法 是否可以完成各种数据挖掘的任务,如:关联分析、分类分析、序列分析、回归分析、聚类分析、自动预测等。我们知道数据挖掘的过程一般包括数据抽样、数据描述和预处理、数据变换、模型的建立、模型评估和发布等,因此一个好的数据挖掘工具应该能够为每个步骤提供相应的功能集。数据挖掘工具还应该能够方便的导出挖掘的模型,从而在以后的应用中使用该模型。 数据挖掘工具的可伸缩性 也就是说解决复杂问题的能力,一个好的数据挖掘工具应该可以处理尽可能大的数据量,可以处理尽可能多的数据类型,可以尽可能高的提高处理的效率,尽可能使处理的结果有效。如果在数据量和挖掘维数增加的情况下,挖掘的时间呈线性增长,那么可以认为该挖掘工具的伸缩性较好。 数据挖掘过程必备元素 – 数据挖掘阶段 操作的简易性 一个好的数据挖掘工具应该为用户提供友好的可视化操作界面和图形化报表工具,在进行数据挖掘的过程中应该尽可能提高自动化运行程度。总之是面向广大用户的而不是熟练的专业人员。 数据挖掘工具的可视化 这包括源数据的可视化、挖掘模型的可视化、挖掘过程的可视化、挖掘结果的可视化,可视化的程度、质量和交互的灵活性都将严重影响到数据挖掘系统的使用和解释能力。毕竟人们接受外界信息的80%是通过视觉获得的,自然数据挖掘工具的可视化能力就相当重要。 数据挖掘工具的开放性 即数据挖掘工具与数据库的结合能力。好的数据挖掘工具应该可以连接尽可能多的数据库管理系统和其他的数据资源,应尽可能的与其他工具进行集成;数据挖掘工具必须要与数据库紧密结合,减少数据转换的时间,充分利用整个的数据和数据仓库的处理能力,在数据仓库内直接进行数据挖掘,而且开发模型,测试模型,部署模型都要充分利用数据仓库的处理能力,另外,多个数据挖掘项目可以同时进行。 数据挖掘过程必备元素 – 数据挖掘阶段 数据挖掘过程必备元素 – 数据模型的评估 与展现阶段 在将数据挖掘的模型部署到生产环境之前,务必要对其进行评估,来验证数据模型对实际数据执行的情况,避免错误的数据模型被使用。因此,需要一套有效的评估方法。 有效的数据展现工具可以将数据之间的关心清晰地展现个用户,辅助用户了解数据之间的关系,便于从中得到有用的信息。目前有些数据挖掘解决方案提供商所提供的数据挖掘软件已经具备了数据展现功能,如Oracle,有些是通过与其数据展现工具相结合,如IBM。 需要具备专业知识的决策规划人员,以便从数据中获得有用的信息和知识,帮助企业获取利润。 缺乏数据 太相信最佳模型 只依赖一项技术 题错了问题 只依靠数据来说话 使用了未来的信息 抛却了不该忽略的案例 轻信预测 试图回答所有问题 随便进行抽样 数据挖掘中容易出现的10个错误 数据挖掘中容易出现的错误 缺乏数据(Lack Data) 对于分类问题或预估问题来说,常常缺乏准确标注的案例。 例如: -欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很 多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。 -信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积 累足够的评分样本。 只依赖一项技术(Rely on One Technique) 不要简单地信赖你用单个方法分析的结果,至少要和传统方法(比如线性回归或线性判别分析)做个比较。 例如: -“当小孩子手拿一把锤子时,整个世界看起来

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档