故障,导致hbase服务异常"/>
记一次raid故障,导致hbase服务异常
问题描述:在收到I/O等待负载大于50%时,我们同等时间收到了业务和研发的通知,目前问题节点io问题对业务有影响。处理步骤如下:
问题描述1:ping正常,ssh登陆在10秒以上,登陆节点明显卡顿
处理方法:紧急停掉HRegionServer服务。
再次检查io情况:发现iowait已经明显比较低,问题似乎已经解决。
iostat -x 1 10
问题描述2:大概10min之后(粗略时间)iowait突然飙升
问题再次出现,但是可以明显感觉到执行命令没有停HRegionServer服务之前卡。此时还有一个关键的信息,读写很低,但是await非常高,达到几千上万,平常最高也就几十而已。
处理方法:凭借运维经验,猜测硬件肯定有问题。于是联系idc紧急排查硬件问题,在同时,我去停了hdfs和yarn的服务。
问题描述3:联系idc检查硬件,最后发现时raid故障
处理方法:在idc解决好raid故障后,启动服务,一切正常。
总结:raid故障总是在业务层先感知到,告警无法提前预判。运维侧收到的是io告警,此时排查问题也需要时间。最后怀疑硬件问题的时候,时间已经过去很久了,无法快速解决问题。也和idc有过沟通,raid故障也是依赖于告警发现的,raid故障基本上滞后了近半个小时。如何能检测出raid卡故障,我们排查的效率也可以快速提升。
最后祝大家新年快了,2021年的最后一天就这样结束了。
更多推荐
记一次raid故障,导致hbase服务异常
发布评论