- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高性能计算集群项目
需求说明书
中国科学院地质与地球物理研究所
2009年4月
1建设目标
随着中国科学院地质与地球物理研究所相关课题研究的不断深入和扩展,现有计算集群提供的计算资源已经不能满足日益增长的科研任务需求。为保证相关研究的顺利开展,我们需要建造一套新的高性能计算集群以便提供海量计算资源。该设备的主要目标如下:
大幅降低课题软件VASP的计算耗时;
可支持后期扩展,如增加计算节点等;
整体架构的所有层次具备高可靠性和易管理性。
2功能需求
本项目中所建立的Cluster集群系统是高性能计算的硬件基础。为了保证计算集群的高效、稳定地运行,需要采用物理上的刀片集群服务器,实现硬件支撑平台的高效集中管理,而管理上采用分层架构,即计算层面采用高集群、。
在进程数增加的同时,体现出良好的加速比;
确保能够完全适应当前及今后不断变化的应用需求。
(二)计算层应具备高可靠性
针对计算集群系统软件的调优应使所有的计算节点稳定高效的并行计算;
整体计算支撑系统应具备较高冗余度以确保稳定运行;
对计算节点的控制机制具备冗余能力,保证对计算节点操作的延续性;
2.2管理需求
与计算硬件平台高度整合的系统管理软件平台,可对系统进行全面的监控和管理;
具备高易用性,功能全面的集群的部署系统;确保对计算系统的快速部署;
3技术要求
3.1 cluster集群系统技术
根据可扩展性和可靠性,以及通过性原则,此次计算平台应使用目前主流的Cluster集群技术搭建;同时通过高速网络InfiniBand) 提高松散耦合系统之间的通讯能力在并行计算环境下支持统一调度的并行系统。模块化实现物理“即插即用”和“即购即换”处理的高效性线缆大规模地减少
随着服务器性能越来越高,应用环境越来越高密度化,服务器的电源功率也越来越重要。高功耗不仅意味着会耗费更多的电能,同时也会带来在电源布线、机房通风、空调散热等各方面的巨大压力,大大增加了运营成本。目前社会上的计算节能意识已经越来越强烈,节能型服务器产品将成为企业信息化建设的又一趋势。因此,本项目中要求刀片服务器必须具备较低的耗电能力,从而可以节省整个硬件支撑平台的用电量。
(二)高可靠性
刀片机箱承载着计算刀片的应用,因此必须重点实现高可用性。要求刀片机箱能够实现关键部件的冗余,采用冗余电源、冗余风扇、冗余管理模块等配置提高服务器的可用性。
除了硬件本身的高可用性以外,还应该进一步提高整个系统的可用性,从而可以提供 7×24×4的服务,保证此硬件平台的高效、稳定运行。
(三)高可管理性
要求刀片系统主要部件模块化;硬盘、管理模块、电源、交换模块等要部件便于拆装、维护和升级;具有方便的远程管理和监控功能,采用人性化、可视化的管理界面;具有较强的安全保护措施等,支持硬盘、电源、风扇等几类功率部件可能出现故障时的提示信号,如硬盘故障隐患提示、电源故障隐患提示等;可以通过管理系统能够全面监控到这些信息,及时提醒管理员,并支持管理员对服务器设备进行远程操作和控制。
(四)可扩充性
本项目中,还要求能够给系统留有足够的扩充空间,以便于随计算规模和应用增加对系统进行扩充和升级。可扩充性的关键在于,可以根据需要随时增加有关部件,在满足系统运行要求的同时,又保护投资。可扩展性主要包括集群的扩充能力、刀片机箱设备的扩展能力(比如采用扩展模块支外插板卡等)以及应用软件的升级能力。
(五)售后服务
要求选用的计算系统可以享受及时、优良的售后服务内容等,这点的重要性仅次于设备的可用性要求。
5.2高速计算网需求
随着计算规模的增加,网络系统可能会有较大的数据交换压力,因此需要Infiniband高速交换网提供有效的方法扩大网络带宽和增加吞吐量,加强网络数据交换能力,提高网络的灵活性和可用性。
高速计算网系统应满足下面的要求:
采用刀片机箱集成20Gb/s Infiniband交换模块的形式实现箱内全交换;
采用刀片箱集成的Infiniband模块,对内10个20Gb/s接口,对外10个20Gb/s接口;刀片箱对内对外均实现20Gb/s全交换; 降低了管理和布线复杂度。模块化设计也使维护更加简单易行;
配置一台24端口20Gb/s交换机,保证网络系统的可扩展性和冗余性;
5.3集群支撑管理系统需求
本次采用的集群系统为刀片式高性能计算集群,因此,需要通过集群管理系统对其进行全方位的监控与管理,从而降低集群系统管理的难度,方便用户管理员的日常维护工作,使得集群得以高效运行。
集群管理系统包括视频切换控制系统、机柜系统和集群操作系统等。
5.3.1 SKVM视频切换控制系统
采用SKVM(Super Key Visio Mouse)系统管理、部署、维护和监控在不同节点间任意切换充分地仿真屏幕、键盘和鼠标,完全控制与相连的计算机网控制
文档评论(0)