Spark大数据平台应用框架.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark大数据平台应用框架

胡德禄 2 0 1 6 / 0 5 / 0 6 自我介绍 • 胡德禄先生,拥有5年以上企业级数据处理及互联网大数据处理的工作经验; • 熟悉Spark、Hadoop、Hive、Scala、Python等分布式计算框架及开发工具, 处理过上亿用户规模的用户电商数据,10TB级存储规模的数据量; • 曾负责并参与灵狐科技的大数据处理平台——保罗(Paul)的设计、研发及 优化,访问地址:/; • 同时也负责参与公司的电商大数据分析平台——ECDT的设计、研发及优化, 访问地址:/; • 这些平台的推出,不仅降低了公司内部使用数据挖掘或机器学习的门槛,同 时也提高了工作效率,充分利用大数据技术服务于公司的电商部门及数字营 销部门等,同时也服务于合作的公司,促使进一步深入合作; 大纲 • Spark导论及大数据生态 • Spark vs Hadoop的计算方式 • Spark平台框架及应用场景 • Scala语言特性及常用方法 • 机器学习在Spark平台的应用 • Spark和Scala开发示例演示 什么是大数据BIG DATA ? 这些年听过的BIG DATA名词 • Hadoop 、HDFS 、MapReduce • Hbase 、Cassandra 、MongoDB 、Zookeeper • Hive 、Pig 、Impala 、Drill 、Mahout • Spark 、Tez 、Storm 、Flink • …… SPARK 导论及大数据生态 HADOOP动物园 DISTRIBUTED COMPUTE FRAMEWORKS: MAPREDUCE 大数据技术框架发展历程 THE DATA SCIENCE VENN DIAGRAM DEVELOPER 2016 2016:在米国挣钱多的编程语言 2016:在数学领域挣钱多的编程 语言 大纲 • Spark导论及大数据生态 • Spark vs Hadoop的计算方式 • Spark平台框架及应用场景 • Scala语言特性及常用方法 • 机器学习在Spark平台的应用 • Spark和Scala开发示例演示 HADOOP HADOOP STRENGTHS • Lowest CapEx system for Big Data. • Excellent for ingesting and integrating diverse datasets. • Flexible: from classic analytics (aggregations and data warehousing) to machine learning. HADOOP WEAKNESSES • Complex administration. • YARN can’t manage all distributed services. • MapReduce: • Has poor performance. • A difficult programming model. • Doesn’t support stream processing. 2013: HADOOP EMBRACE SPARK 速度!速度!速度! SPARK: MAJOR PERFORMANCE IMPROVEMENTS SPARK VS HADOOP • Hadoop: • Spark: 兄弟!兄弟!兄弟! MODULES ONE OF THE FASTEST GROWING OS PROJECTS 2015: A GREAT YEAR FOR SPARK 后HADOOP 时代 后HADOOP 时代 SPARK AS THE STANDARD PROCESSING ENGINE A WINNING COMBINATION 大纲 • Spark导论及大数据生态 • Spark vs Hadoop的计算方式 • Spark平台框架及应用场景 • Scala语言特性及常用方法 • 机器学习在Spark平台的应用 • Spark和Scala开发示例演示 SPARK 平台框架 SPARK生态系统 SPARK 平台框架 • Spark Core Engine: – 基于RDD提供丰富的操作接口,利用DAG进行统一的任务规划,使得Spark能够更加灵活处理类似 MapReduce的批处理作业。 • Spark SQL and Dat

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档