记一次raid故障，导致hbase服务异常

编程入门行业动态更新时间:2024-10-19 19:38:02

记一次raid<a href=https://www.elefans.com/category/jswz/34/1771431.html style= 故障，导致hbase服务异常"/>

记一次raid故障，导致hbase服务异常

问题描述：在收到I/O等待负载大于50%时，我们同等时间收到了业务和研发的通知，目前问题节点io问题对业务有影响。处理步骤如下：

问题描述1：ping正常，ssh登陆在10秒以上，登陆节点明显卡顿

处理方法：紧急停掉HRegionServer服务。

再次检查io情况：发现iowait已经明显比较低，问题似乎已经解决。

 iostat -x 1 10

问题描述2：大概10min之后（粗略时间）iowait突然飙升

问题再次出现，但是可以明显感觉到执行命令没有停HRegionServer服务之前卡。此时还有一个关键的信息，读写很低，但是await非常高，达到几千上万，平常最高也就几十而已。

处理方法：凭借运维经验，猜测硬件肯定有问题。于是联系idc紧急排查硬件问题，在同时，我去停了hdfs和yarn的服务。

问题描述3：联系idc检查硬件，最后发现时raid故障

处理方法：在idc解决好raid故障后，启动服务，一切正常。

总结：raid故障总是在业务层先感知到，告警无法提前预判。运维侧收到的是io告警，此时排查问题也需要时间。最后怀疑硬件问题的时候，时间已经过去很久了，无法快速解决问题。也和idc有过沟通，raid故障也是依赖于告警发现的，raid故障基本上滞后了近半个小时。如何能检测出raid卡故障，我们排查的效率也可以快速提升。

最后祝大家新年快了，2021年的最后一天就这样结束了。

更多推荐

记一次raid故障,导致hbase服务异常

本文发布于:2023-07-28 21:52:56，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1329704.html