- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深入浅出谈数据挖掘 段 勇 编者的话:本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别, 所能解决的几大类问题和所应用的领域都有着非常清晰的论述。作者在此篇文章 中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业 务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方 面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时, 如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的。 一、 数据挖掘的本质 一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在 于:数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问 题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问 题:如描述性统计、交叉报表、假设检验等。 让我们来看一个例子:某移动运营商想了解目前彩铃业务的发展现状如何? 解决这个问题的方法就是常规的数据分析,通过描述性统计和交叉报表,可以知 道目前彩铃业务的用户数、普及率、收入情况?不同品牌用户间的情况和差异? 不同消费水平用户间的情况和差异……。这样的分析主要解决了企业过去发生了 什么以及存在什么问题;如果该运营商希望建立一个模型(或者规则),从没有 使用彩铃的用户群中找出一部分用户作为彩铃营销活动的目标用户,如通过短信 或者外呼的方式告知用户可以免费试用彩铃一个月。解决这个问题则需要使用数 据挖掘的方法,如通过决策树方法可以找出使用彩铃业务可能性较高的用户的一 系列特征规则,然后根据这些规则去筛选目标用户。当然数据挖掘也并不是解决 这个问题唯一办法,因为在没有数据挖据这个概念之前(1990 年以前),这样的 问题在商业中也是普遍存在的。通过常规的数据分析依然能解决这个问题,例如 研究不同品牌、不同消费水平、不同年龄、不同……的用户使用彩铃的情况,也 可以总结出一套比较实用的规则来作为筛选彩铃目标用户的规则。当然,这样的 方法跟数据挖掘方法相比存在一定的不足,由于篇幅的限制,这个问题留给大家 去思考。 个人的观点:数据挖掘很大程度上来说更像是一个框架概念。它所使用的各 种方法在这个概念形成之前已经普遍存在,例如统计学中的多元回归、Logistic 回归,人工智能中的神经网络等。在上个世纪 90 年代,由于数据库的高速发展, 企业对精确化营销的迫切需求,导致了数据挖掘这个概念和新名词的诞生。当然 我们也不能简单的认为数据挖掘就是一个“新瓶装老酒”,毕竟,数据挖掘根据 所解决的不同类型的问题,把包含统计学在内的各种方法进行了整合和重新设 计,形成了一套新的数据分析方法论和框架,在这个框架内,源源不断的很多人 投入进来,这其中主要包含两类人:一类人是在更新设计新的算法;一类人是在 不断的探索既有的方法在商业中的各种应用。 二、 数据挖掘主要解决的四类问题 数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳, 数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决 的四类问题是如何界定的: 分类问题 分类问题属于预测性的问题,但是它跟普通预测问题的区别在于其预测的结 果是类别(如 A 、B 、C 三类)而不是一个具体的数值(如 55、65、75……)。 举个例子,你和朋友在路上走着,迎面走来一个人,你对朋友说:我猜这个 人是个上海人,那么这个问题就属于分类问题;如果你对朋友说:我猜这个人的 年龄在 30 岁左右,那么这个问题就属于后面要说到的预测问题。 商业案例中,分类问题可谓是最多的:给你一个客户的相关信息,预测一下 他未来一段时间是否会离网?信用度是好/一般/差?是否会使用你的某个产品? 将来会成为你的高/ 中/低价值的客户?是否会响应你的某个促销活动?……。 有一种很特殊的分类问题,那就是 “二分”问题,显而易见,“二分”问题 意味着预测的分类结果只有两个类:如是/否;好/坏;高/低……。这类问题也称 为 0/1 问题。之所以说它很特殊,主要是因为解决这类问题时,我们只需关注预 测属于其中一类的概率即可,因为两个类的概率可以互相推导。如预测 X=1 的 概率为 P (X=1 ),那么 X=0 的概率 P (X=0 )=1-P (X=1 )。这一点是非常重要 的。 可能很多人已经在关心数据挖掘方法是怎么预测 P
您可能关注的文档
最近下载
- 鑫达能锂电池充放电测试设备 BCDS70-05-10规格书.docx VIP
- 【新教材】2025-2026学年人教版(2024)七年级上册数学教学计划及进度表.pdf VIP
- 英飞克G3系列用户手册 V3.0.pdf VIP
- 必威体育精装版工资提成方案.pdf VIP
- 人教鄂教版一年级上册科学第一单元第2课《不倒翁》教学课件(2024新教材).pptx
- 第7课 基督教的兴起和法兰克王国(核心素养精品课件).pptx VIP
- 外感咳嗽护理查房ppt.pptx
- DLT-5161-2018电气装置安装工程质量检验及评定规程.doc VIP
- 富氧熔炼底吹炉渣含铜的控制.pdf VIP
- 小学四年级健康教育课件.pptx VIP
文档评论(0)