服务器批量重启修复案例

服务器批量重启修复案例4月16日上午7:30分左右,福州某市医院20多台服务器批量重启,通知现场工程师。通过批量重启告警信息,发现内网esxi53主机硬件告警,初步判

大家好,欢迎来到IT知识分享网。

告警产生

4月16日上午7:30分左右,福州某市医院20多台服务器批量重启,通知现场工程师。

故障分析定位

1、通过批量重启告警信息,发现内网esxi53主机硬件告警,初步判断是X86设备esxi53发生故障,导致esxi53上的虚拟服务器进行迁移重启。

服务器批量重启修复案例

告警提示

查打开esxi53设备详情,查看磁盘运行信息,显示2块磁盘运行正常。

基本可以排除磁盘故障。

服务器批量重启修复案例

磁盘运行正常

2、在9:20左右,服务器再次发生批量重启现象,在批量重启信息中,有“内网ESXi54 主机硬件-x86-温度状态异常告警”

服务器批量重启修复案例

温度异常告警

查看ESXi54硬件故障告警详情,可以看到内存,PCH和PCLe同时温度状态异常告警,推测ESXi54硬件故障,导致esxi54上的虚拟服务器进行迁移重启.

大胆假设,谨慎求证。

于是LinkSLA二级工程师,登录客户主机管理,发现esxi53、esxi54两台主机的虚拟机服务器重启时和平台监控到的内存PCH和PCLe同步存在温度异常告警。

服务器批量重启修复案例

pch、pcle温度异常

因此,可以初步判断,当esxi53、esxi54两台主机在内存状态异常时,内存发现异常。因此出现虚拟机批量迁移到其它主机的现象。

三、后续处理措施和建议

故障修复,建议跟换内存条。通过后续系统检测,此类故障再也没有发生,问题得到解决。

系统的健康稳定,需要时时掌握系统的运行状态,根据AI趋势性算法,做好提前预防,将问题扼杀在摇篮中。

LinkSLA智能运维管家,提供一站式运维服务

服务器批量重启修复案例

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/71687.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信