埃森哲如何利用大数据进行数据挖掘与分析相关两份资料.pptxVIP

埃森哲如何利用大数据进行数据挖掘与分析相关两份资料.pptx

  1. 1、本文档共108页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

风控在线整理发布;;;数据分析;数据分析;数据分析;;CRISP-DM为90年代由SIG组织(当时)提出,已被业界广泛认可的数据分析流程。

1.业务理解(businessunderstanding)

确定目标、明确分析需求

2.数据理解(dataunderstanding)

收集原始数据、描述数据、探索数据、检验数据质量

3.数据准备(datapreparation)

选择数据、清洗数据、构造数据、整合数据、格式化数据

4.建立模型(modeling)

选择建模技术、参数调优、生成测试计划、构建模型

5.评估模型(evaluation)

对模型进行较为全面的评价,评价结果、重审过程

6.部署(deployment)

分析结果应用;数据分析框架;;;数据清洗数据探索;给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。

常用的方法(数据来源于同一分布,且是正态的):拉依达准则、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。

;判别方法;

由包含m个插补值的向量代替每一个缺失值,然后对新产生的m个数据集使用相同的方法处理,得到处理结果后,综合结果,最终得到对目标变量的估计;数据探索;;数据概率分布;数据分布初步推断;相关系数是考察变量之间的相关程度的变量,相关分析是优化数据结构的基础;检验动机:

样本数据只是总体的一个实现,因此,根据现有数据计算出来的相关系数只是变量相关系数的一个观测值,又称为样本相关系数。欲根据这个样本相关系数来估计总体相关系数,必须进行显著性检验。其原假设:在总体中,两个变量的相关系数(总体相关系数)为零

检验意义:

计算在原假设成立的情况下(也就是在两个变量相关系数为零的情况下),由于抽样的原因(收集样本数据的原因)得到当前的样本相关系数(可能这个系数并不为零,甚至还比较大)的概率。(p值越小说明越是小概率事件,不可能发生,拒绝原假设)

检验方法:

T检验(常用):对于近似高斯分布的数据(如两个变量服从双变量正态分布),相关系数的样本分布近似地服从自由度为N???2的t分布;如果样本容量不是特别小(通常大于30),即使观测数据不服从正态分布,依然可使用t检验;KarlPearson(1901??探究如何通过少数几个主成分(principalcomponent)来解释多个变量间的结构时提出主成分分析法,旨在从原始变量中导出少数几个主分量,使其尽可能多地保留原始变量的信息,且彼此间互不相关

内涵:将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反映原多个指标变量所包含主要信息的多元统计方法

应用:数据的压缩和解释,即常被用来寻找和简化判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释

原理:设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。;;分类;未知数据;分类;分类;分类;分类;分类;分类;回归;分类:

前提:

正态性假设:总体误差项需服从正态分布,反之则最小二乘估计不再是最佳无偏估计,不能进行区间估计和假设检验

零均值性假设:在自变量取一定值的条件下,其总体各误差项的条件平均值为零,反之无法得到无偏估计

等方差性假设:在自变量取一定值的条件下,其总体各误差项的条件方差为一常数,反之无法得到无偏估计

独立性假设:误差项之间相互独立(不相关),误差项与自变量之间应相互独立,否则最小二乘估计不再是有效估计

检验:

回归模型;;分类模型评估;;以真正率及敏感性为纵轴,假正率=1-特异性为横轴做图。给定一个二类问题,我们可以对检验集的不同部分,显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。;响应率曲线;;聚类分析——K均值聚类;聚类模型评估;关联规则;;关联规则;关联规则;关联规则模型评估;时间序列:是按时间顺序的一组数字

序列构成:

组合模型:

加法模型:假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动;Y=T+S+C+I

乘法模型:假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数;;建模步骤:;时间序列算法介绍;时间序列算法介绍-ARIMA;时间序列算法介绍-ARIMA;遗传算法是计算机科学人工智能领域中用于解决最优化的一种有哪些信誉好的足球投注网站启发式算法,是进化算法的一种。这种启发式通常用来生成有用的解决方案来优化和有哪些信誉好的足球投注网站问题。进化算法最初是借鉴了进化生物学中的一些

文档评论(0)

AI_data + 关注
实名认证
文档贡献者

中级会计专业资格证持证人

我有10年以上的工作和管理经验,愿意分享职场的干货。

领域认证该用户于2023年02月13日上传了中级会计专业资格证

1亿VIP精品文档

相关文档