阿里-李伟-基于阿里云数据湖分析服务DLA快速构建数据湖解决方案.pdfVIP

阿里-李伟-基于阿里云数据湖分析服务DLA快速构建数据湖解决方案.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于阿⾥云数据湖分析服务DLA快速构建 数据湖解决⽅案 李伟(沐远) ⼀、什么是数据湖分析⽅案 ⼆、构建数据湖⽅案⾯临的挑战 三、阿⾥云DLA⾼效构建数据湖⽅案 数据湖的⽅案背景 201亿美元 + ⽬前39%使⽤ = 价值趋势 什么是数据湖 Wikipedia上说数据湖是⼀类存储数据⾃然/原始格式的系统或存储,通常是对象块或者⽂件,包括原始系统所产⽣的原始数据 拷⻉以及为了各类任务⽽产⽣的转换数据,包括来⾃于关系型数据库中的结构化数据(⾏和列)、半结构化数据(如CSV、⽇ 志、XML 、JSON)、⾮结构化数据(如email 、⽂档、PDF等)和⼆进制数据(如图像、⾳频、视频)。 • 数据来源:原始数据、转换数据 • 数据类型:结构化数据、半结构化数据、⾮结构化数据、⼆进制 • 数据湖存储:可扩展的海量数据存储服务 数据湖⽅案价值 • 数据库:处理结构化数据的联机事务 • 数据仓库:处理⼤数据量结构化数据的分析 • 数据湖:是对海量的结构化、半结构化、⾮结构化、⼆进制数据进⾏存储,同时还需要对这 些数据进⾏管理和价值挖掘 ⽅案⼀:⼀站式端到端数据湖存储、管理、分析计算⽅案 ⽅案价值: • 数据摄⼊侧:⽀持⼀键建湖、流式⼊湖归档数据到OSS存储; • 数据管理侧:⽀持对Database、⽂本、流式数据统⼀到OSS上⾯构建元数据管理; • 数据分析及计算侧:⽀持通过Serverless Spark进⾏ETL及复杂计算、Serverless SQL(兼容 Presto)进⾏交互式查询。 • ⼯具对接侧:⽀持对接DMS调度、业务APP 、QuickBI来进⾏管理。 ⽅案⼆:OSS ⼤规模数据(⾃由编程)清洗机器学习⽅案 ⽅案价值: • 弹性⽅⾯:Serverless Spark完全弹性,1分钟启动300个节点进⾏计算; • ⽣态⽅⾯:Serverless Spark的多数据源能⼒,提供外部数据源批量⼊库、联邦分析能⼒; • 算法及Code⽅⾯:⽀持 Python 、⽤户Code、机器学习等原⽣KPI ; • 离线数仓(复杂分析)⽅⾯:⽀持复杂分析,提供天/ ⽉级别的报表等。 ⽅案三:不同类型数据源联邦查询分析⽅案 ⽅案价值: • 数据源:DLA Serverless SQL(兼容Presto)⽀持15种以上的数据源,能够满⾜95%的联邦分析数据源对接 • 性能:DLA Serverless SQL⽀持⾼效的交互式查询,在读写数据源端做了⼤量下推优化 • ⽣态:DLA Serverless SQL通过JDBC可以对接包括DMS、QuickBI、tableau等系统满⾜业务开发需求。 ⼀、什么是数据湖分析⽅案 ⼆、构建数据湖⽅案⾯临的挑战 三、阿⾥云DLA⾼效构建数据湖⽅案 构建数据湖⽅案⾯临的挑战 如何构建数据的统⼀ 如何⾃动化的构建元 管理视图 数据 如何简单的进⾏数据 如何搞性价⽐的进⾏ ⼊湖 数据价值挖掘 ⼀、什么是数据湖分析⽅案 ⼆、构建数据湖⽅案⾯临的挑战 三、阿⾥云DLA⾼效构建数据湖⽅案 阿⾥云数据湖分析DLA 数据湖分析DLA 是 Serverless的架构,⽀持 【按需与保留】资源使⽤,打造最具性价⽐的数据湖分析平台; 提供⼀站式的数据湖分析与计算服务,⽀持 ETL 、机器学习、流、交互式分析,可以与OSS、数据库等多种数据源搭配使 ⽤;功能包括:数据⼊湖,元数据管理与⾃动发现,⽀持双引擎:【SQL (兼容Presto)分析、Spark计算服务】。 对标AWS Formation

文档评论(0)

优选文档 + 关注
实名认证
文档贡献者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档