- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业论文毕业设计开题报告论文报告设计报告可行性研究报告
商 业 分 析--商业数据的分析、挖掘和应用华东师范大学出版社第7章 商业数据挖掘方法主要内容数据挖掘概论决策树关联规则聚类分析7.1数据挖掘概论产生概念技术及过程应用7.1.1数据挖掘的产生随着世界信息技术的迅猛发展,信息量也呈几何指数增长。特别是随着云时代的来临,海量数据发展到大数据(Big Data)已日益明显,现在许多单位与组织在日常运营中生成、累积的各种数据,规模是如此庞大,以至于不能用G或T来衡量。例如,一天之中,互联网产生的全部内容可以刻满1.6亿多张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……(2011年数据)7.1.1数据挖掘的产生如何从巨量、复杂的数据中获取有用的信息,成为了信息技术研究领域的热门课题。在这样的背景下,数据挖掘技术诞生并成为了近年来的研究热点。机器学习、数据库技术和数理统计是数据挖掘的三个技术支柱。7.1.2数据挖掘的概念从技术角度看:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业角度看:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。 7.1.3数据挖掘技术及过程数据挖掘任务主要有很多种,常见的有监督学习(或称为分类学习)、无监督学习(或称为聚类分析)、关联规则挖掘、预测、时序挖掘和偏差分析等等。分类学习聚类分析关联规则预测时序模式偏差分析7.1.4数据挖掘应用数据挖掘应用场景 数据挖掘在商业分析领域的一些应用如下:金融领域营销领域电子政务电信领域工业生产生物和医学 ……7.1.4数据挖掘应用数据挖掘应用场景——金融领域客户信用等级评估客户透支分析客户利润分析客户消费行为分析 客户消费异常行为分析 ……7.2决策树定义分类与作用常用算法剪枝7.2.1决策树定义理解什么是决策树,决策树有什么作用之前,我们先给出一个决策树的基本结构。它的形状是一棵倒置的树,包括节点和分支。有三种类型的节点:父节点、内部节点和叶节点。图7-2. 决策树示意图7.2.1决策树定义决策树(Decision Tree)是一种以实例为基础的归纳学习算法,是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法,它提供了一种展示类似在什么条件下会得到什么值这类规则的方法。工作过程:图7-3. 决策树工作过程7.2.2决策树分类与作用决策树主要应用于分类预测。分类预测的结果有定性和定量两种。例如,预测天气,定性有下雨或不下雨;定量则是下多少雨,具体的数值。在实际应用中,我们将定性的分类预测称为分类,用来确定类别属性;定量的分类预测成为预测,用来预测具体的数值。分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。因此,决策树可以分为两类:分类决策树,简称分类树,实现对分类型输出变量的分类;回归决策树,简称回归树,完成对数值型输出变量的预测。7.2.2决策树常用算法决策树的两大核心问题:决策树的生长:在样本数据中选择哪一个属性作为根节点,然后如何分支,如何选择内部节点,直到生长出树叶,即到达叶节点,这一系列过程可称为决策树的分枝准则,即具体算法;决策树的剪枝:防止决策树生长过于茂盛,无法适应实际应用的需要。7.2.2决策树常用算法决策树常用算法:基于信息论的方法:ID系列算法C4.5C5.0最小GINI指标的方法: CART SLIQ SPRINT决策树剪枝方法:预修剪(Pre-Pruning)后修剪(Post-Pruning)7.2.2决策树常用算法决策树常用算法——ID3算法1986年,J.R.Quinlan提出了ID3(Iterative Dichotomizer)算法。该算法是以信息论为基础,运用信息熵理论,采用自顶向下的贪心有哪些信誉好的足球投注网站算法。其核心思想是在决策树中各级节点上选择分裂属性。用信息增益作为属性选择的标准,使每个非叶子节点测试时,能获得关于被测试例子最大的类别信息。使用该属性将训练样本集分成子集后,系统的信息熵值最小。7.2.2决策树常用算法决策树常用算法——ID3算法信息熵与信息增益信息论之父申农(C. E. Shannonm)把信息中排除了冗余后的平均信息量称
您可能关注的文档
- 商务英语综合教程(下册)Unit_12_Foreign_Exchange_Trading教材教学课件.ppt
- 商务英语综合教程(下册)Unit_13_International_Marketing_Research_and_Steps教材教学课件.ppt
- 商务英语综合教程(下册)Unit_14_Balance_of_Payments教材教学课件.ppt
- 商务英语综合教程(下册)Unit_15_International_Financial_System_Meets_Challenge教材教学课件.ppt
- 商务英语综合教程(下册)Unit_16_Economy_Theory_and_Dumping教材教学课件.ppt
- 商务英语综合教程第二册Unit_1_Money教材教学课件.pptx
- 商务英语综合教程第二册unit_2_Globalization教材教学课件.pptx
- 商务英语综合教程第二册unit_3_Management教材教学课件.pptx
- 商务英语综合教程第二册unit_4_Company_Culture教材教学课件.pptx
- 商务英语综合教程第二册unit_5_International_Business教材教学课件.pptx
- 2024年证券分析与咨询服务项目投资申请报告代可行性研究报告.docx
- 2024年铬酸酐项目资金申请报告代可行性研究报告.docx
- 2024年清洁胶项目资金申请报告代可行性研究报告.docx
- 2024年肉松饼项目投资申请报告代可行性研究报告.docx
- 2024年陆上泵项目资金需求报告代可行性研究报告.docx
- 2024年未硫化复合橡胶及其制品项目资金需求报告代可行性研究报告.docx
- 2024年精密温控节能设备项目资金筹措计划书代可行性研究报告.docx
- 2024年汽车覆盖件模具项目资金筹措计划书代可行性研究报告.docx
- 宋词行书钢笔字帖.pdf
- 我的暑假生活作文三年级300字10篇.pdf
最近下载
- 刍议核心素养理念下小学道德与法治情境教学研究-来源:中国校外教育(第2020022期)-中国儿童中心.pdf VIP
- 屋顶分布式光伏发电项目可行性研究报告2.doc
- QC诊断师培训分享试题.docx
- 结题鉴定表.doc
- 北师大版七上《去括号》说课稿2.pdf
- 对被执行人的拘留申请书.docx VIP
- 黑龙江省齐齐哈尔市铁峰区2023-2024学年九年级上学期期中考试英语试题.pdf VIP
- 肾脏疾病生活质量简表(KidneyDiseaseQualityofLifeshortForm1.3,KDQOL-SFTM1.3).pdf
- 《税法》说课课件.pptx VIP
- ASTM C231_C231M-24 Standard Test Method for Air Content of Freshly Mixed Concrete by the Pressure Method 用压力法测定新拌混凝土中空气含量的标准试验方法.pdf
文档评论(0)