1-数据挖掘简介详解.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 Data Mining 从运筹帷幄到决胜千里… 舌战群儒 草船借箭 巧借东风 火烧赤壁 赤壁怀古 苏轼 …… 羽扇纶巾 谈笑间 樯橹灰飞烟灭...... 观日月之行,察天地之变 风 雷 电 雨 云 云多会下雨 刮风会下雨 下雨会闪电 闪电会打雷 …… 特征 海量 多样性 易变性 高速 数据量的规模以前所未有的增幅增长。 数据被创建和移动的速度越来越快。 互联网有哪些信誉好的足球投注网站、手机通话记录及传感器网络等造成了数据的多样性。 大数据具有多层结构,意味着大数据会呈现出多变的形式和类型。 什么是大数据? 什么是数据挖掘? 数据挖掘是大数据应用的一项关键技术。然而当人类还在茹毛饮血的上古时代早已进行着数据挖掘的行为 为了快速并准确捕获猎物,人类的祖先必须细心观察猎物的习性、预测猎物的行为,才能战胜猎物、存活下去 什么是数据挖掘? 数据挖掘 Data Mining 定义 William Frawley Gregory Piatetsky Shapiro, 1991 从现有的大量数据中,撷取不明显、之前未知、可能有用的信息 目标 建立起决策模型 哪一类的用户对我的产品有兴趣? 根据过去的行动来预测未来的行为 大量的数据 型态或规则 里面要有矿! 信用卡消费数据:假设每人平均有1.5张信用卡, 每月平均消费10笔,该行约有150万的客户。 就数据量而言,每月约有2,250万笔消费记录,每年约有2亿7千万笔消费记录 客户的消费型态或规则 什么是数据挖掘? 多学科的融合 Databases Statistics Pattern Recognition KDD Machine Learning AI Neurocomputing Data Mining 数据挖掘的发展历程 1960s 数据搜集 磁带、软盘、 硬盘、… 1980s 数据查询 数据库 (SQL语言) 1990s 数据统计 数据仓库 (OLAP) 2000s 数据分析 数据挖掘 几个基本概念 模型(Model) vs 模式(Pattern) 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析 算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出 描述型挖掘(Descriptive) vs 预测型挖掘(Predictive) 描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征 预测型挖掘:根据观察到的对象特征值来预测它的其他特征值 描述型挖掘可以是目的,也可以是手段 数据挖掘 = 模型 + 算法 Logistic Regression 决策树 神经网络 K-Means K-Mode SOM(自组织图) Apriori FP-Growth 基于统计 基于距离 基于偏差 你使用过信用卡吗? 卡应该发给谁? 哪些持卡人会拖欠? 哪些拖欠的客户会还款? 影响 资产组合 (Portfolio) 1、根据历史,预测将来 2、目标是一个分类变量 3、预测结果是一个统计意义下的概率 1、哪些人可以发卡,额度是多少。 2、持卡人拖欠的概率是多少 3、该对谁催收 分类过程 训练集 分类学习 训练集 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ Jef is YES! 分类器 物以类聚,人以群分 人为地选取细分维度 客户价值 地域 活跃程度 …… 维度灾难的发生 维度增长 细分数目指数增长 人脑仅能处理有限的维度 市场 聚类示意 基于欧氏距离的三维空间中的聚类 基于质心的聚类算法 (K-Means) A1 A2 B1 x y z 发现商品间的关联规则 buy(x,”diapers”)  buy(x,”beers”) 关联规则的量度 支持度:Support(A=B)=#AB/#N,表示A和B同时出现的概率 期望可信度:Support(A)=#A/#N,表示A出现的概率 置信度:Confidence(A=B)=Support(A=B)/Support(B) 改善度:Lift(A=B)=Confidence(A=B)/Support(B) 名称 描述 公式 支持度 X、Y同时出现的频率 P(X∩Y) 期望可信度 Y出现的频率 P(Y) 置信度 X出现的前提下,Y出现的频率 P(Y|X) 改善度 置信度对期望可信度的比值 P(Y|X)/P(Y) 关联规则的度量 发现具有最小置信度和支持度的全部规则 X ^ Y

文档评论(0)

三沙市的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档