- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论数据挖掘的发展前景及潜在价值.pdf
论数据挖掘的发展前景及潜在价值
罗艳
LUO Yan
(南宁海蓝数据有限公司,广西南宁 530022 )
(Highland Digital Technology INC.,Nanning,Guangxi,530022,China)
摘要: 作为一项通用的知识发现技术,数据挖掘技术旨在从少量数据中提取出人
们感兴趣的数据信息,由此本文对数据挖掘概念的产生,数据挖掘与常规数据分
析的主要区别,所能解决的几大类问题和所应用的领域都有清晰的论述,并且结
合数据挖掘的应用模型及技术提出了数据挖掘的应用前景。
关键词:数据挖掘 数据挖掘算法 知识发现
中图法分类号:TP302.1
一、引言
数据挖掘作为近年来新兴的一门计算机边缘学科,在我国也逐渐引起了越来
越多人的关注,并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善,
数据挖掘必将在各行各业中得到广泛的应用。这项以数据库技术、统计分析、人
工智能等为依托的综合性运用技术的出现有其必然性和可行性。首先,信息社会
的到来对数据的筛选和利用提出了更高要求,而少量数据的出现又使得基于传统
数据处理方法的人们面对大量数据无从下手,此时必然要求有更为先进的数据处
理技术;其次,计算机性价比的提升和磁盘存储器价格的大幅度降低,使得人们
借助计算机来完成数据的分析和处理成为可能。
二、数据挖掘的本质和特征
一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在
于:数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测,而常规数据分
析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设
检验等。广义上说,任何从数据库中挖掘信息的过程都叫做数据挖掘。从这点看
来,数据挖掘就是 BI (商业智能)。但从技术术语上说,数据挖掘特指的是:源
数据经过清洗和转换等成为适合于挖掘的数据集。数据挖掘在这种具有固定形式
的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。
从这种狭义的观点上,我们可以定义:数据挖掘是从特定形式的数据集中提炼知
识的过程[1]。数据挖掘往往针对特定的数据、特定的问题,选择一种或者多种
挖掘算法,找到数据下面隐藏的规律,这些规律往往被用来预测、支持决策。
在这个基础上理解,数据挖掘很大程度上来说更像是一个框架概念。它所使
用的各种方法在这个概念形成之前已经普遍存在,例如统计学中的多元回归、
Logistic 回归,人工智能中的神经网络等。
三、数据挖掘的应用模型及技术
在实施数据挖掘之前,根据信息数据进行具体分析,制定出数据挖掘的过程
模型,同时该过程也适用于一般性通用的数据挖掘系统。
图1 数据挖掘的过程模型
数据挖掘一般可以分成以下几个步骤:
(1)定义问题和主题。
(2)数据预处理。
(3)建立挖掘模型。
(4)用测试集对挖掘模型评估。
(5)挖掘模型应用。
1.定义问题和主题
认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结构是不可预测
的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不
会成功的。在确定主题时需要解决一些问题:挖掘从何处入手,需要用到那些数
据,使用多大数据量,要进行到什么程度[2]。
2. 数据预处理
数据预处理阶段工作是选择数据的子集或样本进行预挖掘,以便较快地确定
合适的挖掘工具和挖掘技术。主要包括数据的收集,属性选择,连续属性离散化,
数据中的噪声、丢失值或空缺值的处理,各种数据集的生成等。经过数据清理 (消
除噪声或不一致数据)、数据集成(多源数据的组合)后,就可以进行数据选择
(从数据库中检索与分析任务相关的数据),按照功能要求作为条件从收集的数
据进行检索,从中选择或全部选择,生成测试数据集。数据的抽取、转换和加载
是数据进入仓库前对数据的处理过程,决定着数据的质量[3]。
3. 建立挖掘模型
这一阶段也称知识发现
您可能关注的文档
- 能量管理模式在高校中的应用.pdf
- 脑信息处理的特性检测研究.pdf
- 腐殖质提取与表征研究进展.pdf
- 膜分离技术概述.pdf
- 膜盖成形工艺中拉深与翻边研究秦玲.pdf
- 膨胀土土水特征曲线的研究.pdf
- 膨胀性软岩矿井钢管支架支护研究与应用.pdf
- 膳食纤维的理化特性及其对人体的保健作用.pdf
- 臁疮的病因病机和治疗.pdf
- 自主管理企业民主管理的新形式江铜贵溪冶炼厂自主管理活动的实践与体会.pdf
- 2024-2025学年高中物理选修3-4教科版教学设计合集.docx
- 2024-2025学年高中地理选修二海洋地理鲁教版教学设计合集.docx
- 2024-2025学年初中信息技术(信息科技)初中一年级(上册)教科版(云南)教学设计合集.docx
- 2024-2025学年小学英语五年级下册人教版(新起点)教学设计合集.docx
- 2024-2025学年初中生物学七年级上册(2024)北师大版(2024)教学设计合集.docx
- 2024-2025学年高中英语选择性必修 第三册人教版(2019)教学设计合集.docx
- 2024-2025学年初中英语八年级下册上海新世纪版教学设计合集.docx
- 2024-2025学年小学道德与法治二年级下册统编版(部编版)(2024)教学设计合集.docx
- 2024-2025学年高中英语必修 第一册北师大版(2019)教学设计合集.docx
- 2024-2025学年小学信息技术(信息科技)第四册电子工业版(2022)教学设计合集.docx
文档评论(0)