组raid6的硬盘换到另一台组raid6的机器上不识别问题

如果一块硬盘在设备上识别不到,对于硬件工程师来说首先就是要排查我的硬件链路是否有问题,但这样的思路很容易把问题分析带偏,朝向错误的方向。

我在一次客户现场出差时就遇到一次这样的问题,新到的设备上架后发现一块盘亮红灯,在raid卡的VD Mgmt界面识别不到,这让我们很紧张,马上就把另一台上的硬盘拔下一个换上去看会不会还亮红灯,但是还是识别不到,raid卡的蜂鸣器一直在叫。旁边的某大神说赶紧排查是不是硬件链路有问题,线缆、背板都要排查一下。最后发现线缆、背板都没问题,但是整个排查过程很折腾。

最后我忽然想起来组raid的硬盘插在别的设备上因为原来的raid的信息会导致识别不到硬盘,需要清除一下raid信息。

作为一个硬件工程师,之前对于raid方面的知识一无所知,对于具体的配置操作更是陌生。求助于后端的该领域专家才迅速解决了这个问题。

今天我在实验室复现了这个问题,并按照之前的操作直接解决验证了这个问题。

1、硬盘拔出后在raid组中会显示missing,蜂鸣器叫;

2、把该硬盘重新插回去,硬盘亮蓝灯,实际上时正在重构,进入raid界面,在对应raid组下面看到之前的硬盘显示rebuild,说明正在重构。

3、把两个raid6组的硬盘分别拿一块交换位置,重启后硬盘亮红灯,蜂鸣器叫,这就是当时现场的现象。

4、进入raid界面发现在PD Mgmt中这两个硬盘为UB状态,按F2执行make config good,硬盘状态变为foreign,然后进入foreign界面,按F2执行import,进入VD Mgmt发现硬盘状态变为热rebuild,这样就开始重构了,蜂鸣器一直叫,大约十几分钟蜂鸣器不叫了,重构完成。