- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第1章绪论第2章数据分析与可视化技术第3章认识数据第4章数据预处理第5章分类概念与方法第6章关联分析概念与方法第7章聚类分析概念与方法第8章大数据挖掘关键技术第9章案例分析
第1章绪论大数据挖掘导论与案例
学习目标/Target了解大数据的概念与特征,了解大数据挖掘的过程模型了解大数据挖掘的工具与技术,了解大数据挖掘的应用了解数据科学的产生与兴起,了解数据科学工作者应具备的基础和技能
引言/Introduction国际权威机构Statista的统计和预测显示,2019年全球数据量达到41ZB,2020年达到47ZB,2025则增长到175ZB,而到2035年,这一数字将达到2142ZB。大数据已持续引起人们生活、工作和思维模式的大变革。人们的注意力已转移到寻找大数据使用的真正价值上。数据的爆炸式增长,对数据技术提出了更高的要求。
目录/Contents010203数据科学和数据科学家大数据的概念和特征大数据的主要来源0405大数据挖掘的概念和流程数据挖掘的主要任务
目录/Contents0607大数据挖掘的工具与技术大数据挖掘的应用
数据科学与数据科学家1.1
1.1.1数据科学的产生和数据科学家的兴起1962年,美国数学家JohnW.Tukey在《数理统计年鉴》上发表题为“数据分析的未来”的论文,为未来数据科学的发展奠定了基础。1966年,丹麦计算机科学家PeterNaur发明了“数据学(Datalogy)”。1974年出版《计算机方法简明概述》,首次使用“数据科学”一词,将数据科学定义为“处理数据的科学”。1977年,JohnW.Tukey出版著作《探索性数据分析》,提出:探索性数据分析和论证性数据分析能够且应该并驾齐驱。1989年,GregoryPiatetsky-Shapiro提出“知识发现”和“数据挖掘”,组织并主持了第一届“数据库中知识发现(KnowledgeDiscoveryinDatabases,KDD)”研讨会。数据科学
1.1.1数据科学的产生和数据科学家的兴起1991年,Piatetsky-Shapiro和Frawley等人出版论文合集《数据库中的知识发现》。1993年,JohnChambers发表了题为“GreaterorLesserStatistics:AChoiceforFutureResearch”的论文,呼吁统计学领域对传统统计学进行改革。文中指出传统统计学在未来的研究中将面临两种选择:(1)“更专有(Lesser)”。以数学技巧为主导,专注于传统课题和数学本身,以学术研究为主,与其他相关学科交流较少;(2)“更包容”(Greater)。从数据中学习,兼收并蓄,以应用为主,与其他相关学科交流频繁。Chambers指出更包容虽然充满挑战,但会带来更多的机遇;而更专有则有可能使传统统计学研究变得越来越边缘化。Chambers呼吁要打破传统统计学的边界,更多地专注于数据本身,正视数据分析本质上是一种基于经验的科学。数据科学
1.1.1数据科学的产生和数据科学家的兴起1989年至1994年召开4次KDD国际研讨会。1995年,数据挖掘界举办第一届“知识发现与数据挖掘”国际学术会议。1996年,国际分类协会联盟在日本神户召开的第5次国际会议上,首次正式使用“数据科学”术语,并将其纳入会议标题。会后出版会议论文选集《数据科学,分类和相关方法》,涵盖了不断发展的数据科学领域中出现的广泛主题和观点,包括与数据收集、分类、聚类、探索性和多元数据分析,以及发现和寻求知识有关的领域的理论和方法方面的进步。同年,UsamaM.Fayyad、GregoryPiatetsky-Shapiro、PadhraicSmyth和RamasamyUthurusamy出版《知识发现与数据挖掘的进展》,汇集了知识发现和数据挖掘的研究成果。数据科学
1.1.1数据科学的产生和数据科学家的兴起1997年,应用统计学家C.F.JeffWu在“统计学=数据科学?(Statistics=DataScience?)”的演讲中,将当时定义的“统计学工作内容”描述为:数据收集、数据建模与分析、洞察与决策三部曲,并提出了他对未来统计学发展方向的展望,呼吁将统计学重新命名为数据科学。1998年,ACM-SIGKDD成立,1999年以来一直组织SIGKDD国际会议。目前,SIGKDD是数据挖掘研究领域的顶级会议。2001年,美国统计学教授WilliamS.Cleveland在《国际统计评论》上发表文章“数据科学:一种拓展统计学技术领域的行动”,首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为研究对象,与信息和计算机科
您可能关注的文档
- 项目1-任务1-移动机器人分类及行业应用.pptx
- 移动机器人技术-课件 项目1-任务2-移动机器人系统构成.pptx
- 移动机器人技术-课件 项目2-任务1-物料搬运机器人机械系统设计分析.pptx
- 移动机器人技术-课件 项目2-任务2-移动机器人零部件认知.pptx
- 移动机器人技术-课件 项目3-任务1-移动机器人零件建模.pptx
- 移动机器人技术-课件 项目3-任务2-移动机器人SolidWorks组件夹爪装配.pptx
- 移动机器人技术-课件 项目3-任务3-硬件架构及接线实践.pptx
- 移动机器人技术-课件 项目3-任务4-移动机器人实物组装.pptx
- 移动机器人技术-课件 项目4-任务1-STM32集成开发环境的安装与应用.pptx
- 移动机器人技术-课件 项目4-任务2-串口通信.pptx
- 七章货物的保险.pptx
- 三章国际间接投资.pptx
- 人性假设理论.pptx
- 外研高一英语必修三ModuleIntroduction汇总市公开课获奖课件省名师示范课获奖课件.pptx
- 月相成因优质获奖课件.pptx
- 小学二年级语文课件《狐假虎威》省名师优质课赛课获奖课件市赛课一等奖课件.pptx
- 养羊业概况专题知识讲座.pptx
- 微生物的实验室培养市公开课获奖课件省名师示范课获奖课件.pptx
- 人教版六年级下册式与方程整理与复习市公开课获奖课件省名师示范课获奖课件.pptx
- 必威体育精装版高中精品语文教学:第二单元-第7课-诗三首:涉江采芙蓉、-短歌行、归园田居市公开课获奖课件省名师.pptx
最近下载
- 2.3二次函数与一元二次方程、不等式(第1课时)课件(共19张PPT)2021-2022学年高一上学期人教A版(2019)数学必修第一册.pptx
- 5G赛前复习练习卷含答案.doc VIP
- 5G赛前复习复习测试题.doc VIP
- 职业技术学院数控技术专业《数控编程与操作》课程标准.docx
- 八年级数学上册专题12.1 全等三角形九大基本模型 专项讲练(解析版).docx VIP
- 《中华人民共和国烟草专卖法》知识测试卷含答案.doc VIP
- S7-1500Web服务器功能手册.pdf VIP
- Scratch圭小校本教材.pdf
- 5G赛前复习练习卷含答案(一).doc VIP
- 铝的阳极氧化和着色(华南师范大学物化实验).pdf
文档评论(0)