高可用性报告.doc.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高可用性报告.doc

高可用报告 一、?? 高可用分析 1、三个概念 失效(fault):指设备或程序自身固有缺陷导致的瞬间或永久性的功能失常。 错误(error):由失效导致的系统内部不正确行为。错误可以被发现并进行纠正。 故障(failure):指由于出现错误导致了系统产生了不正确的结果。 2、平均故障发生时间MTTF ( Mean Time To Failure) MTTF是一个统计上可测量的参数 MTTF 1 寿命 MTTF= 1 / 稳态运行期间的故障发生率 N台机器T时间内故障数: E = (N×T)/ MTTF 3、服务器系统的运行—维护周期 可靠性: 系统连续提供服务的能力,MTTF: Mean Time To Failure 可维护性:修复故障使系统恢复正常的能力,MTTR: Mean Time To Repair 4、可用性(Availability) 可用性= MTTF / (MTTF + MTTR) 例: MTTF=5000小时, MTTR=1天, 则可用性为: 5000/(5000+24) = 99.52% 5、提高可用性的途径 1)??????? 提高 MTTF 2)??????? 降低 MTTR 二、硬件高可用 (一) Cluster中硬件HA的目标 1、 问题的起源:单点故障问题及其应对策略 单点故障:某些硬件或软件部件,它们的故障会导致整个系统的崩溃。[6] 机群系统可能出现的单点故障有: ????????? 处理器或节点 ????????? 存储程序或数据的磁盘 ????????? 适配器、控制器和连接节点到磁盘的电缆 ????????? 用户访问机群节点的网络。 ????????? 应用程序 应对策略:通过系统地消除那些单点故障来尽可能使更多的故障成为部分故障。[6] 解决机群中的单点故障问题:解决大多数的单点故障问题并不需要使用任何分层软件产品。计算从任何特殊错误中恢复所需人工干涉的总时间和精力。然后再考虑系统能否承受停机造成的损失,以及能否提供全天操作中必须的人工干预。对于机群设计者而言,这将有助于决定是使用人工干预来管理还是需要采取其它措施来满足高可用性的要求。 · 节点故障 在机群中,当一个节点提供的服务是关键性的话,那么当该节点失效时,机群中必须有另外的节点来代替它的资源,向终端拥护提供相同的服务。 包括以下步骤: 1、? 2、在故障和备用节点之间引入和改变所有组的卷,并且装上所有需要的文件系统。 3、修复存储在故障节点内部磁盘上的所有应用程序和数据。 4、执行任何鉴定性的应用程序。 假定后备节点在关键服务中还没有被网络访问。这样,每个节点需要额外的网络适配器,这个节点将被备份。如果用户通过串行连接访问失效节点,每个终端应该物理上重连接到后备节点的端口上。如果外部磁盘没有连接到失效节点和后备节点之间的通用总线上,则需要手工将他们从一个转换到另一个。所有关键数据被保存在外部磁盘上。如果最后的后备节点变为不可用,所有关键数据则被保存至节点的内部磁盘。 · 磁盘和I/O总线故障 为了防止包括磁盘的外部I/O通道中的任何部分出错,应该在两路I/O总线上将磁盘镜象或者使用从节点到存储子系统有双重路径的磁盘阵列系统。 · 网络适配器故障 为了防止网络适配器故障,每个提供关键服务的节点需要配置备用网络适配器。这个适配器连接到与用户正在访问的主适配器相同的网络主干上。如果网络适配器失效,可以将备用适配器的地址改为失效适配器的地址。另外一种方法是始终有一个热备份的网络适配器可以随时替代出错适配器。这种方法从故障中恢复的时间更短,因为系统安装备用适配器无需停机。 · 网络故障 如果用户正在和一个节点通信时网络主干停止工作,解决方案之一是人工地将所有机群节点和客户端机器切换到另外一个主干上。即便有足够的时间和精力去这样做,还得保证没有松散的连接或网络设备(路由器、集线器或网桥)故障引起主干失效。另外一个解决方案是连接一个终端的子集到备用节点的串口上,这样还可以提供最小级别的服务。在这种情况下应用程序必须被设计成允许用户既可以通过网络连接到终端也可以通过串口连接到终端。 · 应用程序故障 根据应用程序的设计,为监控应用程序使用的后台程序,并及时对状态改变作出反应,应该使用AIX子系统资源控制器。 2、 人工干预的缺点 根据上述的讨论,依据故障的不同类型。包括检测故障所花时间,很明显从任何机群故障中人工恢复的时间为30分钟到几个小时。这对许多应用在重要场合的机群来说

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档