记一次服务器故障

前言

戴尔服务器面板报错:MEM0001 Multi-bit memory error on DIMM_A4. Reseat memory 解决方式

经过

​ 事情是这样的,公司有一台服务器特别慢,上面跑着一套公司的产品,访问特别卡慢,就想着把它迁移到另一台linux服务器,linux服务器上硬盘和内存都比较充足,性能相对好点,所以花了几个小时(服务较多,三十多个)时间将所有服务都windows服务器上迁移到了linux服务器上,在Linux上使用了docker-compose编排运行,所以迁移时间较长,

​ 迁移过程还比较顺利,也顺利运行了起来,但是下班时需要更新一些服务,所以将服务重新打包更新了一遍,但是就在重启某个服务时服务器突然就断开了,ping能ping通,但是远程连接不上,上面运行的服务也无法访问了,内心慌的一批,因为上面运行了公司的OA系统,赶紧去服务器跟前连上显示器一探究竟,发现服务器面板报错,没太记得清,英文较长,至记得时cpu error 什么的一串,看起来时cpu过载废了?想着应该不至于吧,服务器应该没这么垃圾,不过服务器同时启动N多个服务的时候,服务器风扇确实相当给力,响声特别大!

​ 连上显示器显示config memory什么的,卡着不动了,所以首先使用重启大法,强制关机发现提示面板没动,还是显示那个错误,所以直接断电后再插上,内心慌的一批啊,然后重启后按正常逻辑进入系统,发现linux无法运行,一看提示面板显示上面的报错: MEM0001 Multi-bit memory error on DIMM_A4. Reseat memory ,惭愧,英语不是太好,但是大概能看懂,是内存的问题,没太注意这个错误!回去拿手机准备搜一下,同事也过来帮忙查看,说拆开机盖,看看内存条,以前从没拆过,以为服务器都是螺丝固定的,别给整坏了!后来同事说这种的机盖一般都是卡扣式的,研究了一番,发现还真是,机盖上有个卡扣,按一下,就把机盖推出来了,发现内存条有8个,大概看了看,内存条旁边还有一个卡着,想着开机再试试吧!启动后发现直接报错,搜了下原来是机盖没盖上,无法启动,然后又盖上了!

​ 重新启动后还是机器还是无法启动,这次报错还是上面这个:MEM0001 Multi-bit memory error on DIMM_A4. Reseat memory,所以又断电打开机器看看,同事说不行全部把内存条插拔一下试试,所以准备开干,我又大概搜索了一下这个错误,很多是英文的,看起来比较费劲,但是看到戴尔的社区里有官方回答类似的问题!不过DIMM_A4 这里和我不通,是什么DIMM_B2啥的,这时还没太想出来这是代表什么,后来我看机器上的内存条的时候发现旁边有类似的编号A1 A2。。。这样的,我才突然想起来这报错,估计应该是A4这个位置的内存条有问题,和同事说了下,看看是不是有A4这个编号,发现还真有,所以尝试把这个位置的内存条拔下来,擦擦吹吹灰,然后又插回去,合上机盖!

​ 现在内心 忐忑啊,就怕整不好就完蛋了,虽然这不是人为的操作失误导致的,但是上面的服务就全停了,影响正常办公就不好了,启动过程中紧张的一批!选择linux系统启动后,出现了久违的登录页面,面板也没有报错了,此刻心终于放下来了,赶紧远程登录把相关服务启动了!

经验

后来把这个报错翻译了一下:

​ MEM0001 DIMM _A4上的多位内存错误。重新拔插内存。

然后问了下chatGpt,下面是它的回答,还是非常有用的:

这是一条关于计算机硬件的错误信息,通常与内存(RAM)模块的问题有关。这条消息提到了一个名为 “DIMM_A4” 的内存插槽上的多位内存错误,并建议重新插拔内存模块。

要解决这个问题,您可以按照以下步骤操作:

  1. 关机和断电: 首先,关闭计算机并断开电源。
  2. 打开机箱: 如果您熟悉计算机硬件,打开计算机机箱以便访问内存插槽。
  3. 重新插拔内存: 将 DIMM_A4 插槽上的内存模块小心地取出,然后再次插入。确保它插得牢固。您可以按照计算机的手册来了解正确的内存插拔方式。
  4. 重新启动计算机: 重新连接电源,开机并查看是否错误消息消失。

如果错误消息仍然存在,可能需要考虑更换或维修内存模块,或者请专业技术人员检查计算机硬件。这种类型的错误通常表明内存硬件可能存在问题,而重新插拔内存模块有时可以解决接触不良的问题。

总结

所以如果服务器出现故障,一定不要忽视面板上的报错提示,这里面不仅告诉你报错信息,还会告诉你应该怎么处理,我是第一次处理这种故障,所以一开始就忽视了这个问题,后来看了公司的服务监测系统,整个过程服务停机了一个小时才恢复,后面如果再有类似问题,就知道该怎么处理了,这次处理过程真的是又学到了很多啊!