[工学]数据挖掘介绍.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]数据挖掘介绍

模型的建立(CRISP-DM) 将数据分割为: 训练数据 检验数据 测试数据 同一商业问题可以通过多种算法, 调整参数找出最佳模型 Training Validation Test * * 模型评估(CRISP-DM) 模型评估(Evaluation) 评估结果(Evaluate Results) 回顾数据挖掘过程(Review Process) 确定下一步(Determine Next Steps) * * 模型评估(CRISP-DM) Training Validation Test 使用训练数据集 建立预测模型. 使用检验数据集 来优化和最终确定模型 使用测试数据集 来测量模型在预测未知数据的能力 * * 模型的评估之累积增益图(CRISP-DM) 累积增益图指标 可以判断不同挖掘算法的准确率 * * 布署与应用(CRISP-DM) 布署与应用(Deployment) 制定部署方案(Plan Deployment) 方案监测和维护(Plan Monitoring and Maintenance) 产生最终报告(Produce Final Report) 项目回顾(Review Project) * * 布署与应用(CRISP-DM) 将挖掘的分析结果部署到商业模型中,达到自动化预测的效果,以提升营运利润、改善商业流程 使用对象 决策者 营销单位 财务分析 质量保障单位 * * 目录 什么是数据挖掘 1 数据挖掘流程 2 数据挖掘任务 3 数据挖掘应用 4 * * 数据挖掘的任务 预测任务 使用某些变量预测其他变量未知的或者未来的变量值 描述性任务 找出人类可以理解的,能描述数据的模式. * * 数据挖掘的任务 分类 [预测] 聚类 [描述] 关联规则发现 [描述] 序列模式发现 [描述] 回归 [预测] 偏差分析 [预测] * * 分类与预测 分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。 一般使用分类来表示对有限离散值的预测。使用预测(predication)来表示对连续数值的预测 * * 示例 一个商场销售主管可能会对影响商品销售的主要因素很感兴趣,若将顾客对商品的感觉分为三类,即:积极、一般和消极。那么利用分类挖掘对商场销售商品情况进行挖掘,就可以获得利用商品特征来预测顾客对其的感觉的分类知识,相关的商品特征通常包括:价格、品牌、产地、类型和种类等。而所获得的分类规则显然将帮助商场主管更有效开展商品的促销活动。 * * 分类: 应用1 直销 目标: 识别出可能购买某种新型手机产品的顾客,从而降低营销成本. 方法: 使用已有的类似产品的数据 已知哪些顾客购买了,而哪些没有,这个 {买, 不买} 的决策构成了类标签. 收集这些顾客的各种人口的、生活方式和与公司业务有关的信息 行业类型, 居住地方, 收入等. 使用这些信息作为输入属性来学习分类器模型 * * 分类: 应用2 欺诈检测 目标: 预测出信用卡交易中的欺诈行为 方法: 使用信用卡交易和持卡人信息作为属性 标注以往的交易为正常或者欺诈交易,形成了类别标签 针对交易类别学习模型. 针对某些信用卡账户交易情况,使用该模型来检测是否欺诈交易 * * 分类: 应用3 客户流失: 目标: 预测一个顾客是否可能会流失到竞争对手 方法: 使用当前和以前的客户相关信息来找出属性 How often the customer calls, where he calls, what time-of-the day he calls most, his financial status, marital status, etc. 将这些客户标注为忠实或者不忠实. 找出一个可以预测忠实性的模型 * * 聚类分析 给定聚类分析的数据,以及度量数据对象之间相似度的计算公式,对象划分为若干组或簇(clusters),使得: 各簇(clusters)内部数据对象间的比较相似 各簇(clusters)对象间不相似 * * 分类与聚类 分类预测方法学习获取分类预测模型所使用的数据是已知类别归属(class-labeled data ),属于有指导的学习方法; 聚类分析所分析处理的数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。因此聚类分析属于无指导的学习方法。 * * 聚类: 应用1 市场细分: 目标: 将一个市场划分为若干个客户群体,将每个群体分别作为营销目标,使用不同的营销组合手段进行营销 方法: 收集客户的不同属性,包括地

文档评论(0)

ctuorn0371 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档