- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spark作为ETL工具与SequoiaDB的结合应用 一、前言 ETL一词较常用于数据仓库,但其对象并不仅限于数据仓库 ETL是指将 Extract Transform Load 数据从源系统中经过抽取 ( )、转换 ( )、加载 ( )到目标 ETL OracleDataIntegrator Informatica 数据存储区的过程。常见的 工具有 、 PowerCenter DataStage Kettle DataSprider 、 、 、 等 在大数据应用中,海量的数据及对潜在应用的支持是非常重要的方面,并 体现出与传统应用开发的巨大不同。因此,在选择合适的ETL工具时,除了需 要考虑数据处理的正确性、完整性、工具易用性、对不同数据格式的支持程度之 外,还必须考虑数据处理的效率、处理能力的可扩展、容错性 Spark UCBerkeleyAMPlab HadoopMapReduce 是 开源的类 的通用的并行 计算框架,是一个新兴的大数据处理引擎,主要特点是提供了一个集群的分布式 内存抽象。与Hadoop相比,Spark将中间数据放在内存中,避免频繁写盘,因 此效率更高,更适合于迭代计算;在操作类型、开发语言支持上更丰富;在分布 式数据集计算时通过checkpoint来实现容错 而且,由于Spark的分布式特性, 处理能力的扩展更容易,也更经济 因此,从整体上,Spark作为ETL工具能帮 助企业实现技术和财务的双赢 SequoiaDB是新一代NewSQL数据库,是文档型分布式数据的典型代表 SequoiaDB企业版通过深度集成必威体育精装版的Spark内存计算框架,实现了批处理分析、 流处理等贴近应用的功能 存储层和计算层两层分离的架构,技术互补,是硅谷 大数据新架构的主流,将分布式计算与分布式存储的能力分别发挥到了极致 在 Spark SparkSQL SQL Spark 必威体育精装版版本中, 对标准 的支持也越来越完善,更加体现出 产品的成熟。因此,在SequoiaDB应用中,利用Spark进行数据加工分析是理 想之选 二、功能概述 作为ETL工具,必须具备多样数据源的支持,比如HDFS、HBase、Amazon S3、MongoDB等。在这一点上,Spark支持跟多种数据源的对接,常见的数据 源包括HDFS、Cassandra、HBase、Hive、ALLUXIO (即Tachyon)、AmazonS3; Spark也能从全文检索工具Elasticsearch中读写数据 Spark作为ETL工具能满 足工具功能通用性的要求 以Spark为ETL处理的数据流图如图一所示: Spark ETL 图一 为 数据流图 HDFS Cassandra 在以上数据流图中,可以将存储于 、 等系统中的存量数据 通过Spark提供的接口抽到Spark中,利用Spark的快速处理能力进行处理,比 如数据去重、更新,最后将结构数据存储到巨杉数据库中。整个处理过程中,不 需要将数据以数据文件的形式存盘,加快了处理速度 对于已存储到巨杉数据库中的数据,也可以在Spark 中处理,并将处理后 的数据落到库中 三、环境搭建 3.1Spark环境搭建 Spark运行模式包括Standalone、SparkonYARN、SparkonMesos。三种 模式的主要区别在于使用的资源管理调度工具
您可能关注的文档
最近下载
- 招标代理机构入围 投标方案(技术方案).docx
- GB 50017-2003 钢结构设计规范.docx VIP
- 2025年湖南劳动人事职业学院单招语文考试模拟试题及答案解析.pdf VIP
- 高中物理游标卡尺、千分尺、螺旋测微器读数习题.docx VIP
- 湖南劳动人事职业学院单招测试题(附解析)英语.pdf VIP
- 重磅——2017年全国卷文言文挖空训练学生版及教师版.pdf VIP
- 大班《闽南红砖古厝》.pptx VIP
- 2024贵州黔南州面向优秀村(社区)干部专项招聘乡镇(街道)事业单位工作人员35笔试备考题库及答案解析.docx VIP
- 2025共青团入团考试题库及完整答案.pdf
- 3 雪地里的小画家 课件(共21张PPT).pptx VIP
有哪些信誉好的足球投注网站
文档评论(0)