记一次raid故障,导致hbase服务异常

编程入门 行业动态 更新时间:2024-10-19 19:38:02

记一次raid<a href=https://www.elefans.com/category/jswz/34/1771431.html style=故障,导致hbase服务异常"/>

记一次raid故障,导致hbase服务异常

问题描述:在收到I/O等待负载大于50%时,我们同等时间收到了业务和研发的通知,目前问题节点io问题对业务有影响。处理步骤如下:

问题描述1:ping正常,ssh登陆在10秒以上,登陆节点明显卡顿

处理方法:紧急停掉HRegionServer服务。

再次检查io情况:发现iowait已经明显比较低,问题似乎已经解决。

 iostat -x 1 10

问题描述2:大概10min之后(粗略时间)iowait突然飙升

问题再次出现,但是可以明显感觉到执行命令没有停HRegionServer服务之前卡。此时还有一个关键的信息,读写很低,但是await非常高,达到几千上万,平常最高也就几十而已。

处理方法:凭借运维经验,猜测硬件肯定有问题。于是联系idc紧急排查硬件问题,在同时,我去停了hdfs和yarn的服务。

问题描述3:联系idc检查硬件,最后发现时raid故障

处理方法:在idc解决好raid故障后,启动服务,一切正常。

总结:raid故障总是在业务层先感知到,告警无法提前预判。运维侧收到的是io告警,此时排查问题也需要时间。最后怀疑硬件问题的时候,时间已经过去很久了,无法快速解决问题。也和idc有过沟通,raid故障也是依赖于告警发现的,raid故障基本上滞后了近半个小时。如何能检测出raid卡故障,我们排查的效率也可以快速提升。

最后祝大家新年快了,2021年的最后一天就这样结束了。

更多推荐

记一次raid故障,导致hbase服务异常

本文发布于:2023-07-28 21:52:56,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1329704.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:故障   异常   raid   hbase

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!