扩展Hadoop的十大要点汇总_光环大数据培训精选.pdfVIP

扩展Hadoop的十大要点汇总_光环大数据培训精选.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
扩展Hadoop的十大要点汇总_光环大数据培训精选

光环大数据--大数据培训知名品牌 扩展Hadoop 的十大要点汇总_光环大数据培训 20 世纪 90 年代,每台应用服务器往往都拥有直接连接存储(DAS) 。创建存储区域网络 (SAN),是为了提供共享的存储池,以获得更大的规模和更高的效率。hadoop 逆转了这股潮 流,让DAS 重新流行起来。每个Hadoop 集群都有自己的、横向扩展直接连接存储。它有助 于 Hadoop 管理数据局部性,但是牺牲了共享存储的规模和效率。因此,如果你有 Hadoop 发行版的多个实例,就会有多个这种横向扩展的存储孤岛。 Hedvig 公司的首席执行官兼创始人阿维纳什·拉克希曼(Avinash Lakshman)说:“我 们遇到的最大挑战就是,兼顾数据局部性与规模和效率。” 数据局部性是指确保大数据集存储在执行分析任务的计算资源附近。对于 Hadoop 来说,这就意味着管理数据节点(DataNode),而数据节点为MapReduce 拥有足够好的性能提 供了存储资源。它可以高效地工作,但是导致了另一个操作问题:大数据存储孤岛。本文介 绍的这些要点有助于管理Hadoop 环境中的大数据存储。 1. 分散式存储 集中式存储作为传统架构已有一段时间。但是大数据其实并不适合集中存储架构。 Infogix 的金融服务行业(FSI)战略和运营经理森希尔·拉贾曼尼坎(Senthil Rajamanickam)表示, Hadoop 旨在让计算资源更接近数据,同时充分利用HDFS 文件系统的大规模横向扩展功能。 然而,解决 Hadoop 管理自有数据的低效问题的常见方法,一向是将Hadoop 数据 存储在 SAN 上。而这带来了性能和规模方面的一系列瓶颈。现在,你的所有数据都通过集 中式SAN 控制器来处理,而控制器破坏了Hadoop 的分布式、并行化的特性。你需要为多个 数据节点管理多个SAN,或者将所有数据节点保存到一个SAN 上。 光环大数据 光环大数据--大数据培训知名品牌 拉克希曼说:“由于 Hadoop 是一种分布式应用系统,它应该可以在分布式存储上 运行,那样你的存储保持与Hadoop 本身一样的弹性。这需要你积极采用软件定义存储方法, 在商用服务器上运行,但是它比把Hadoop 放在传统SAN 或NAS 技术上高效得多,因为后者 给Hadoop 造成了瓶颈。 2. 超融合vs 分布式 不过要小心,别将超融合与分布式混为一谈。某些超融合方法是分布式的,但这个 术语通常意味着你的应用程序和存储可以共同驻留在同一个计算节点上。解决数据局部性问 题很诱人,但是这会造成严重的资源争夺现象。 Hadoop 应用和存储平台将争夺同样的内存 和处理器资源。拉克希曼表示,最好在专用的应用层上运行 Hadoop,在专用的存储层中运 行分布式存储,从而充分利用缓存和分层技术,以解决数据局部性和网络性能开销。 3. 避免控制器阻塞点 他强调了做到这一点的一个重要方面――避免通过单一(或可能两个)点( 比如传统 控制器)来处理数据。通过改而确保存储平台并行化,就能显著提高性能。 此外,这种方法提供了增量可扩展性。为数据湖添加容量就跟添加几台内置闪存或 旋转磁盘的x86 服务器一样简单。分布式存储平台可在必要时自动添加容量、重新均衡数据。 4. 重复数据删除和压缩 驾驭大数据的一个关键部分是重复数据删除和压缩。Hedvig 看到常见的大数据集可 以缩减70%-90% 。在PB 级规模下,这意味着可节省数万美元的磁盘成本。 拉克希曼说:“现代平台提供了内联式(而不是处理后)重复数据删除和压缩。这意 味着,如果不先以某种方式来缩减数据,数据永远不会进入到磁盘,这大大减少了存储数据 光环大数据 光环大数据--大数据培训知名品牌 所需的容量。”

文档评论(0)

pfenejiarz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档