admin管理员组

文章数量:1566358

一、             故障现象:

 

两台数据库服务器操作系统正常,但是共享磁盘丢失。DB2数据库服务关闭。集群状态是“recovering”

 

二、解决办法:

 

让用户查看了一下心跳网口和RSA管理口的状态,发现是正常的。说明不是硬件问题,通过重启2台服务器,问题解决。

 

三、故障原因分析

 

通过远程VPN连接到客户的服务器端,抓取操作系统的日志。发现集群早在2009-09-23当天已经出现故障。从2009-09-232009-09-27早上,集群一直在出现故障状态。故障出现的原因见下图日志:

 

 

节点:F1DB01

 

Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it

Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: now running without any active interface !

Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]: Link for bond0: Not detected

Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]: No link on bond0...

Sep 23 15:20:54 F1DB01 clurgmgrd[3829]: status on ip "172.16.50.3" returned 1 (generic error)

Sep 23 15:20:54 F1DB01 clurgmgrd[3829]: Stopping service service:redhat-service

Sep 23 15:20:56 F1DB01 avahi-daemon[3681]: Withdrawing address record for 172.16.50.3 on bond0

 

节点:F1DB02

Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it

Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: now running without any active interface !

Sep 23 15:21:39 F1DB02 clurgmgrd[4023]: Recovering failed service service:redhat-service

Sep 23 15:21:40 F1DB02 kernel: kjournald starting.  Commit interval 5 seconds

Sep 23 15:21:40 F1DB02 kernel: EXT3-fs warning: maximal mount count reached, running e2fsck is recommended

Sep 23 15:21:40 F1DB02 kernel: EXT3 FS on sdc1, internal journal

Sep 23 15:21:40 F1DB02 kernel: EXT3-fs: mounted filesystem with ordered data mode.

Sep 23 15:21:40 F1DB02 clurgmgrd: [4023]: Link for bond0: Not detected

 

从这2个节点日志分析,如红色标记看出,2个节点的“bond0“都挂掉了,也就是4个网口都宕掉的情况下,集群肯定会出问题。通过在客户这里了解,得知用户在23号在调整网络,对集群的网口造成很大影响导致的。

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub/8334342/viewspace-616021/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub/8334342/viewspace-616021/

本文标签: 集群两则故障Linux