- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HBase灾备方案.PDF
HBase灾备方案
及增量备份功能介绍
陈飚
讲稿下载:/strata-cn/public/schedule/detail/59719
关于我
陈飚
chenbiao15@
华为企业IT服务部大数据服务总监
前Cloudera售前技术经理、资深架构师
前Intel Hadoop发行版核心开发人员
2006年加入Intel编译器部门从事服务器中间件软件开发,擅长服务器软件调试与优化,曾带领团队开发
出世界上性能领先的XSLT 语言处理器
2010 年先后负责Hadoop发行版开发、HBase 性能调优,以及行业解决方案顾问,曾为中国移动、中国
联通总部、中国银联等成功实施并支持多个上百节点大数据集群
灾备基本概念
备份(Backup)
- 允许使用之前备份的数据恢复对应时间点的数据
- 主要用于防止数据的故障错误和误操作
- 通常备份中的数据不包含必威体育精装版的数据
灾备(Disaster Recovery)
- 在严重系统性故障后恢复业务和运营(Business Continuity and Disaster Recovery
(BCDR) )
- 包括从备份中恢复数据要以及重建运行环境和状态
- 目标是减少业务影响
这里的“跨数据中心”要解决的不是数据扩展性问题,而是数据可靠性和可用性问题
灾备指标及标准
RTO (Recovery Time Objective)
- 恢复服务所需要的时间长度
- 通常备份的时间越近,RTO越短
- 是衡量架构的重要指标
RPO (Recovery Point Objective)
- 用于衡量如果发生故障会丢失多少数据
- 数据备份的频率越高,RPO越好
图片来源
灾备还应考虑的因素
业务要求是多活集群还是主备集群?
一致性要求(严格一致性/最终一致性)
数据写入性能(同步/异步?)
资源需求
备份频率及时间窗口
执行备份时最关心的网络性能指标(Throughput/Bandwidth/Latency)
需要备份的数据分类
大数据备份的难点
1. 数据量太大,难以传输到备份设备
2. 使用传统备份方案处理大数据成本太高
3. 数据种类太多,重要性和安全要求差别很大,不能用简单的一个工具解决所又问题
4. Hadoop生态圈组件太多,HDFS文件系统级别的备份方案不能满足所有场景
5. 虽然开源社区组件有多个拷贝等相互独立工具,但缺乏完整的备份方案
6. 如何能复用备份集群运行某些应用提高集群资源利用率
7. 如何兼顾备份成本和RTO/RPO
文件系统灾备方案
底层硬件方案
通过底层硬件支持备份甚至双活
优点
- 对上层透明,应用无感知
- 方案成熟,几乎主流存储厂商都有对应方案
缺点
- 通常使用SAN协议,必须采用集中式存储
- 成本高,存储容量有限
- 同城双活方案中存储规格要一致,避免性能短板导致
体验下降,但成本翻倍
- 延时不超过5ms,物理部署不超过50KM
适用场景
- 对于RTO和RPO都有严格要求的场景
- 同城双活方案严格意义上不能保证RPO=0、RTO=0
- 异地容灾方案由于时延,RPO和RTO均大于0
- 核心关键业务采用同城双活方案,同时构建异地容灾方案;非核心非关键大数据量业务考虑异地容灾方案
Hadoop中的数据库使用
很多Hadoop上的组件和工具使用数据库作为元数据和状态的持久化存储
选用何种关系型数据库决定了访问关键信息的可靠性和性能
- 永远不要在生产环境使用内嵌的非主流商用数据库!
- 关系型数据库应该部署高可靠(HA)
数据库应该做周期性的备份和归档
- 对于集群配置等关键数据甚至需要变更管理和历史版本管理
实践中经常碰到的问题:这部分工作应该属于大数据团队还是其
文档评论(0)