如果一块硬盘在设备上识别不到,对于硬件工程师来说首先就是要排查我的硬件链路是否有问题,但这样的思路很容易把问题分析带偏,朝向错误的方向。
我在一次客户现场出差时就遇到一次这样的问题,新到的设备上架后发现一块盘亮红灯,在raid卡的VD Mgmt界面识别不到,这让我们很紧张,马上就把另一台上的硬盘拔下一个换上去看会不会还亮红灯,但是还是识别不到,raid卡的蜂鸣器一直在叫。旁边的某大神说赶紧排查是不是硬件链路有问题,线缆、背板都要排查一下。最后发现线缆、背板都没问题,但是整个排查过程很折腾。
最后我忽然想起来组raid的硬盘插在别的设备上因为原来的raid的信息会导致识别不到硬盘,需要清除一下raid信息。
作为一个硬件工程师,之前对于raid方面的知识一无所知,对于具体的配置操作更是陌生。求助于后端的该领域专家才迅速解决了这个问题。
今天我在实验室复现了这个问题,并按照之前的操作直接解决验证了这个问题。
1、硬盘拔出后在raid组中会显示missing,蜂鸣器叫;
2、把该硬盘重新插回去,硬盘亮蓝灯,实际上时正在重构,进入raid界面,在对应raid组下面看到之前的硬盘显示rebuild,说明正在重构。
3、把两个raid6组的硬盘分别拿一块交换位置,重启后硬盘亮红灯,蜂鸣器叫,这就是当时现场的现象。
4、进入raid界面发现在PD Mgmt中这两个硬盘为UB状态,按F2执行make config good,硬盘状态变为foreign,然后进入foreign界面,按F2执行import,进入VD Mgmt发现硬盘状态变为热rebuild,这样就开始重构了,蜂鸣器一直叫,大约十几分钟蜂鸣器不叫了,重构完成。