覆盖日常90%以上工作的100条运维设备日常维护检查单Checklist.docx

覆盖日常90%以上工作的100条运维设备日常维护检查单Checklist.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

覆盖日常90%以上工作的100条运维设备日常维护检查单Checklist

在IT运维领域,设备的稳定运行是企业业务连续性的基石。一套详尽、严谨的日常维护检查单(Checklist),是运维工程师高效、规范工作的核心工具。本文将系统梳理涵盖服务器、网络、存储、安全、机房环境等关键领域的100条必会维护检查点,为运维工作提供标准化操作指南。

一级分类

二级分类

检查项

一、服务器硬件维护检查(15条)

1.物理状态检查

目视检查服务器外观有无明显损伤、变形;指示灯状态(电源、硬盘、风扇、故障灯)是否正常。

2.电源与供电

?检查冗余电源模块状态是否均为正常(绿灯)。

?确认电源线连接牢固,无松动、老化、破损。

?检查PDU(电源分配单元)指示灯、电流电压显示是否在正常范围。

3.风扇与散热

?检查服务器内部及机柜风扇运转是否正常,无异常噪音(尖锐声、摩擦声、停转)。

?清理风扇及散热器格栅的灰尘(按需,结合机房清洁计划)。

?监控服务器进风口、出风口温度(通过管理口或传感器)。

4.CPU状态

通过操作系统命令(如Linux的top/htop,Windows任务管理器)或硬件管理工具(如iLO,iDRAC,IMM)查看CPU利用率、温度是否在合理阈值内(通常80%持续高负载需关注)。

5.内存状态

?检查操作系统报告的内存总量是否与物理配置一致。

?检查内存使用率、Swap使用率(过高需排查)。

?通过硬件管理工具或dmidecode等命令检查是否有内存ECC错误报告。

6.磁盘状态

??物理磁盘:?检查硬盘指示灯状态(通常绿色正常,黄色预警,红色故障/离线);通过RAID卡管理工具(MegaCLI,?storcli,?hpssacli)或操作系统检查所有物理磁盘状态(Online,?PredictiveFailure?等)。

??阵列状态:?确认RAID级别,检查RAID阵列状态是否为Optimal或Normal,无降级(Degraded)或失效(Failed)。

??背板/线缆:?检查SAS/SATA/NVMe背板连接、线缆是否牢固。

7.PCIe设备

检查关键扩展卡(HBA卡、网卡、GPU卡等)在操作系统和设备管理器中的状态是否正常。

8.管理接口

测试服务器带外管理接口(如iLO,iDRAC,iBMC)的网络连通性和登录功能是否正常。

9.固件版本

(定期)检查关键组件(BIOS/UEFI,BMC,RAID卡,网卡)固件版本,评估是否需要按计划升级(非紧急不打补丁)。

10.物理连接

检查所有数据线缆(网线、光纤、存储线缆)连接是否牢固、标签清晰、无过度弯折。

11.日志检查

查看服务器硬件日志(通过操作系统事件查看器、dmesg、journalctl?或硬件管理工具),筛选硬件相关错误(Critical,?Error,?Warning)并处理。

12.备件状态

周/月)确认关键备件(电源、风扇、硬盘)库存状态和可用性。

13.资产信息核对

(定期)核对服务器物理位置、资产标签、配置信息(CPU、内存、硬盘)是否与CMDB记录一致。

14.清洁度

(按机房清洁周期)确保服务器表面及周边无明显积尘。

15.螺丝与安全

检查机箱盖板是否盖好,固定螺丝是否齐全(影响散热和安全)。

二、网络设备维护检查(15条)

16.物理状态检查

目视检查交换机、路由器、防火墙等设备外观、指示灯(电源、状态、端口灯)是否正常。

17.电源与供电

检查冗余电源状态、电源线连接、PDU状态(同服务器检查点)。

18.风扇与散热

检查风扇运转状态、噪音、散热口通畅度。

19.CPU与内存利用率

登录设备CLI或Web界面,检查CPU和内存利用率是否在正常范围(通常70%),高峰时段重点监控。

20.端口状态

?检查所有业务端口状态(up/up),速率和双工模式是否正确。

?检查有无err-disable端口,并查明原因。

?检查关键端口(上联、核心互联)的输入/输出错误计数(inputerrors,?outputerrors,?CRC,?giants,?runts)是否持续增长或过高。

21.链路聚合状态

检查聚合端口组状态是否为up,成员端口状态一致,无端口被踢出聚合组。

22.生成树协议状态

检查STP/RSTP/MSTP根桥位置是否预期,各端口角色(Root,?Designated,?Alternate/Blocking)是否正确,无异常拓扑变更(TCN)。

23.路由协议状态

?检查BGP/OSPF/EIGRP等邻居状态是否正常(Established,?Full)。

?检查路由表是否收敛、完整,无异常路由抖动或缺失。

24.ACL与策略应用

(按需)检查关键ACL、策略路由、QoS策略是否按

文档评论(0)

steven + 关注
实名认证
内容提供者

系统集成项目管理工程师、AMAC基金从业资格证持证人

该用户很懒,什么也没介绍

领域认证 该用户于2023年08月23日上传了系统集成项目管理工程师、AMAC基金从业资格证

1亿VIP精品文档

相关文档