- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
;Agenda;;来自数据的挑战;;How to choose storage?;选择1: NoSQL Database;选择2:Parallel database;选择3: Search engine;选择4: SQL on Hadoop;;;Apache CarbonData社区介绍;Apache CarbonData;Growing Community;感谢社区用户的贡献;;支持Spark、Hive、Presto、Flink 内置Hadoop和Spark深度优化 Hadoop: 2.2 Spark 1.5, 1.6, 2.1 接口 SQL DataFrame API;SQL;SQL;;CarbonData介绍;CarbonData介绍;Blocklet: 文件内的数据块 Data are sorted along MDK (multi-dimensional keys) Clustered data enabling efficient filtering and scan Column chunk: Blocklet内的列数据 一次IO单元 内部分为多个Page,解压单元 元数据和索引信息 Header:Version,Schema Footer: Blocklet Index statistics 内置索引 Multi-dimensional Index Statistics: Column Min/Max, Cardinality;Years;索引建立过程介绍(二);利用两级索引架构减少Spark Task数和磁盘IO;支持嵌套数据类型:Array, Struct;CarbonData介绍;;;CarbonData表格物理存储;Segment管理;CarbonData介绍;;;;;利用两级索引架构减少Spark Task数和磁盘IO;;大颗粒IO单元(Carbon V3格式): Blocklet内部一个Column Chunk 是一个IO单元, Blocklet按大小切分,默认64MB,大概有100万行记 录。大颗粒顺序读提升扫描性能。 跳跃解码(Carbon V3格式) : 增加数据页Page概念,按Page进行过滤和解码,减 少不必要的解码解压缩,提升CPU利用率 向量化解码 + Spark向量化处理 解码和解压缩采用向量化处理,与Spark2.1向量化、 Codegen结合,在扫描+聚合场景下提升性能4X 堆外内存: 处理大结果集时,解码解压缩过程中堆外完成, 减少GC;;CarbonData介绍;CREATE TABLE table(c1 STRING, c2 INT, c3 STRING, c4 INT, c5 DOUBLE) STORED BY “carbondata” TBLPROPERTIES (‘SORT_COLUMNS’=‘c2, c3’) LOAD DATA INPATH ‘source path’ INTO TABLE table OPTIONS (‘SORT_SCOPE’=‘NO_SORT/BATCH_SORT/LOCAL_SORT’);;全局字典的生成方式;数据更新和删除;删除数据;49;;性能测试;TPC-H benchmark 测试 (500GB) 真实场景测试(十亿级数据) 可扩展性测试 (100个节点,万亿级数据,103TB) 存储层 Parquet: 分区列:time column (c1) CarbonData: 多维索引:c1~c10 计算层 Spark 2.1;TPC-H: 查询速度;为什么Query12快了6倍?;TPC-H: 入库速度和压缩率;;;成功案例介绍;银行:使用CarbonData解决性能、规模、集群资源利用问题;电信:数仓分析场景,替换SybaseIQ和磁盘阵列;;总结:CarbonData的优秀DNA;website: Code: /apache/carbondata JIRA: /jira/browse/CARBONDATA Mail list: dev@, user@ 欢迎在Maillist上提问,共同探讨和开发CarbonData新特性
有哪些信誉好的足球投注网站
文档评论(0)