大家好,欢迎来到IT知识分享网。
告警产生
4月16日上午7:30分左右,福州某市医院20多台服务器批量重启,通知现场工程师。
故障分析定位
1、通过批量重启告警信息,发现内网esxi53主机硬件告警,初步判断是X86设备esxi53发生故障,导致esxi53上的虚拟服务器进行迁移重启。
查打开esxi53设备详情,查看磁盘运行信息,显示2块磁盘运行正常。
基本可以排除磁盘故障。
2、在9:20左右,服务器再次发生批量重启现象,在批量重启信息中,有“内网ESXi54 主机硬件-x86-温度状态异常告警”
查看ESXi54硬件故障告警详情,可以看到内存,PCH和PCLe同时温度状态异常告警,推测ESXi54硬件故障,导致esxi54上的虚拟服务器进行迁移重启.
大胆假设,谨慎求证。
于是LinkSLA二级工程师,登录客户主机管理,发现esxi53、esxi54两台主机的虚拟机服务器重启时和平台监控到的内存PCH和PCLe同步存在温度异常告警。
因此,可以初步判断,当esxi53、esxi54两台主机在内存状态异常时,内存发现异常。因此出现虚拟机批量迁移到其它主机的现象。
三、后续处理措施和建议
故障修复,建议跟换内存条。通过后续系统检测,此类故障再也没有发生,问题得到解决。
系统的健康稳定,需要时时掌握系统的运行状态,根据AI趋势性算法,做好提前预防,将问题扼杀在摇篮中。
LinkSLA智能运维管家,提供一站式运维服务
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/71687.html