一、巡检目的
为保障学校数据中心机房设备稳定、安全、高效运行,规范数据中心机房的操作过程,需要对数据中心机房的设备进行日常的巡检工作,掌握设备运行状况及周围环境的变化,发现设施缺陷和危及安全的隐患,及时采取有效措施,保证设备的安全和系统稳定。
二、巡检主要内容
及时查找、发现网络及信息系统设备隐患,排除故障。
(一)进行数据中心机房网络运行状态检查,对网络设备的运行情况、报警信息的查看,网络是否连通、网络带宽流量是否在正常范围等情况进行检测;
(二)进行服务器的检查,对系统数据库的定时备份情况以及软件系统的检查;
(三)进行数据中心云计算机服务平台的检查,对ESXI主机检查,虚拟机检查,运行日志检查、网络存储运行状态检查,检查存储系统日志。
三、巡检时间
每周例行的维护时间为星期三上午8:00至10:00,维护期间如需停机检测,将会在OA系统发布正式公告。
四、巡检部门
信息化建设处
五、巡检要求
(一)巡检期间,进行状态检查,若发现问题,如计算机数据中心机房物理环境异常、设备状态异常、网络或应用系统故障,应立即按操作规程执行进行恢复操作。
1.电源、UPS:检查数据中心机房供电状况,UPS工作情况、指示状态。
2.数据中心机房环境:检查数据中心机房空调工作状态,数据中心机房温度。
3.服务器:检查服务器是否宕机,服务器(磁盘阵列)硬盘灯指示是否正常。
4.数据库:检查信息系统数据库服务是否正常。
5.网络通道:检查内外网络通道状态,包括学校内部局域网、学校与电信运营商的外部网络通道状态。
6.网络设备:检查网络设备,包括交换机、路由器、防火墙等设备,检查设备工作状态。
(二)如果故障按恢复规程无法有效恢复,特别是当发生数据中心机房环境(电力、空调)故障、关键的设备、网络、系统、服务无法及时恢复时,应立即启动应急预案,由相关领导协调资源进行故障处理。
(三)故障处理过程必须在数据中心机房日常巡检表(附件一)的备注栏中详细记录,以备查阅。
附件1:广州商学院信息化建设处数据中心机房巡检流程图