- 1、本文档共54页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
浙教版(2019)必修1数据与计算4.2大数据处理
学习目标1.了解大数据处理的基本思想与架构(学科核心素养:信息意识)2.能够编程处理数据,进行文本数据处理(学科核心素养:信息意识、计算思维)3.能够根据实际问题,选择恰当的方式把数据可视化,提升利用数字化工具解决实际问题的能力,进而提升信息技术学科素养。(学科核心素养:信息意识、数字化学习与创新)
新课导入观看图片:生活中常见的大数据
新课导入观看图片:生活中常见的大数据
新课导入观看图片:生活中常见的大数据
新课导入观看图片:生活中常见的大数据
新课导入同学们,这些都是大数据在生活中的应用,前面咱们也学习了如何处理表格数据。大数据具有数据量大、数据来源与类型多样、处理速度快等特点,简单的表格处理软件已经无法满足大数据的处理需求,同时,大数据技术、理论和处理方法也在不断发展,为大数据的处理提供了越来越有力的支持。
任务探究任务一:大数据处理的基本思想与架构1.了解大数据处理的基本思想与架构小组为单位,结合课本及网络资源总结归纳大数据处理的基本思想与框架,并填写下表,班级分享。大数据处理的基本思想与架构
任务探究大数据处理的基本思想与架构处理大数据时,一般采用分治思想。分治,字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多个相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。如果这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至可以直接求出解为止。在数据量较小的情况下,程序的处理速度是非常快的。如果数据量、单词词汇量非常大(数十亿),那么运行这个程序、处理数据的速度将变得非常慢。随着计算机数量的增加,发生机器故障、网络故障的风险不断增加。这就需要一台或多台计算机负责管理,并运行专门的软件检测计算过程中的故障,在检测到故障时能重新安排计算任务。这种“分治”的思想就是处理大数据的基本思路。
任务探究任务一:大数据处理的基本思想与架构2.了解分布式计算与并行处理分布式计算(DistributedComputing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。例如,利用分布在世界各地成千上万台闲置计算机的计算能力,分析来自外太空的电信号,探索可能存在的外星智慧生命。并行处理(ParallelProcessing)是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。
任务探究任务一:大数据处理的基本思想与架构3.了解常见大数据处理类型目前,大数据处理按照类型可划分为对静态数据的批处理、对流数据的实时计算和对图结构数据的图计算。
任务探究任务二:了解批处理计算1.了解批处理计算工具,并填写下表。批处理工具HadoopSpark
任务探究任务二:了解批处理计算1.了解批处理计算工具,并填写下表。批处理工具HadoopSparkHadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。借助Hadoop,程序员可以在不了解分布式底层细节的情况下,轻松编写分布式并行程序,将其在计算机集群上运行,完成海量数据的存储与分析。Spark是一种与Hadoop相似的、应用较广的开源分布式计算架构。Spark启用了内存存储中间结果,运行速度比Hadoop快很多。
任务探究任务二:了解批处理计算2.了解Hadoop的发展史及组成HadoopHadoop的发展史Hadoop的发展史:Hadoop诞生于2002年的ApacheNutch项目。2006年,Hadoop从Nutch中独立出来成为顶级项目。2008年,Hadoop成为Apache顶级项目,被广泛应用于大数据处理领域。随后,其不断发展完善,功能日益强大。众多企业开始采用Hadoop处理海量数据,如日志分析、数据仓库等。如今,Hadoop生态系统不断丰富,包括Hive、HBase等组件,为大数据存储、计算和分析提供了强大的解决方案,在全球范围内持续发挥着重要作用。
任务探究任务二:了解批处理计算2.了解Hadoop的发展史及组成
任务探究任务二:了解批处理计算3.自主阅读课本124-126页内容,了解分布式数据库HBase、分布式并行计算模型MapReduce、分布式文件系统HDFS等。分布式文件系统HDFSHBase是一个高可靠、高性能、可伸缩、分布式的列式数据库,是谷歌BigTable数据库的开源实现。与传统关系型数据库采用基于行的存储形式、用于管理表格类的结构化数据不同,
您可能关注的文档
- (冀人2024版)科学一年级上册 2.4 感官帮助我 课件(新教材).pptx
- (冀人2024版)科学一年级上册 2.5 简单工具 课件(新教材).pptx
- (浙教版2019)信息技术必修1 第四章 数据处理与应用 单元复习课件.pptx
- (浙教版2019)信息技术必修一4.3 大数据典型应用 课件.pptx
- (浙教版2019)信息技术必修一5.1 人工智能的产生与发展 课件.pptx
- (浙教版2019)信息技术必修一5.2 人工智能的应用 课件.pptx
- (浙教版2019)信息技术必修一5.3 人工智能对社会的影响 课件.pptx
- 图书出版合同样本7篇.docx
- 商店和员工劳务合同7篇.docx
- 户外广告牌租赁合同6篇.docx
文档评论(0)