近日有点不顺,新买的服务器用了不到3个月,坏了一块硬盘……当然,电子产品,不怀疑质量问题,只能说是凑巧……重要的是这台服务器是公司重要业务网课业务的主服务器,机器一停,一个月就100多万就没了…… 吓我一身汗……
前天晚上,正吃晚饭,机房巡查人员通知,有一台机器正在报警,吃饭都没心情了,马上通知同事检查备份服务器,更新最新备份数据。等到晚上9点应用切到备份机器运行都正常使用后,开车去机房关机下架检查机器。
机器问题:应用可以正常使用,但机器一起“嘀-嘀-”报警,声音很响,一直报。后板的指示灯亮黄灯,一起闪。
报警灯一直闪黄灯
正常 的服务器是绿灯
下架开箱检查,发现不是主板报警,是阵列卡报警,于是确认是陈列卡或硬盘问题。这台服务器做的是raid6,raid6的好处是4个硬盘做阵
列,坏2个硬盘不会丢失数据。
开机按ctrl+H 进入阵列配置,查看配置,有两个硬盘有问题,一个盘是MISSING(丢失)状态,另一个rebuild(重建raid)状态,于
是通知服务器供应商送硬盘过来更换。
第二天(昨天)供应商按我的要求在下午5点派技术人员带硬盘过来了(商家售后服务还是不错的),晚上6点准备进机房更换硬盘。
硬盘更换完后,再查看RAID状态,两个硬盘都为rebuild状态。这就是两个盘都在重建RAID,这个需要几个小时时间,于是再把机器上架,等待自动REBULID。
第三天早上(今天)7:30再次赶到机房查看RAID重建情况,RAID重建OK了,全显示绿色,但进入系统,还是读不到数
据盘,出现了an error occurred during the file system check提示,另外被告知要么输入root密码进行修复,直入系统手动挂载硬盘
,可以查看到数据,只是无法使用。
于是查资料,再尝试各种修复方法。最后全命令fsck -y /dev/sda1 修复成功。再次reboot 一切恢复
正常,数据完整无缺。
数据恢复中……
硬盘损坏恢复数据不容易,此文送给以后需要技术参考的技术朋友们,也给自己留下点经验……