手机铃声"/>
DBA与手机铃声
早上起来去拔掉充了一夜电的手机,看到有几十个未接来电,和若干条短信。
部分短信内容如下:
‘数据库昨晚十二点半挂了’
‘看到短信后速回,着急’
呼吸有些紧张,大脑一片空白......
公司系统是7×24运行的。平时计划中的系统维护都是争分夺秒的。
凌晨十二点半到现在已经过去了近六个小时?
意味着业务中断了六个小时......
没时间了,也不敢再想了......
赶紧给同事打电话,问清楚发生了什么问题?
在0:30发现数据库失去了响应,2:10 SA到达现场后无法登陆系统,通过强制关电源重启了操作系统。
了解到操作系统已经恢复正常,但数据库还没起来。
马上用VPN登录系统,准备去启动数据库。
先浏览了一下数据库的日志,没发现什么异常。
接着检查了,磁盘空间,内存,cpu等系统资源.
确认都比较正常后,开始用sqlplus 登录,重启oracle,重启监听。
一切都非常顺利。
电话通知同事,数据库恢复正常,系统可以用了。
同事重启应用,应用恢复正常。观察了一会数据库没什么问题,
赶紧胡乱吃了口老婆准备的早饭,马上往单位赶。
到了单位看去跟往常一样,风平浪静。但我心情却极其复杂。
因为我手机在充电,且是震动状态,导致所有的来电都没有听到......
不知道怎么去面对辛苦了一夜的同事、领导,以及其它部门上夜班的同事们.....
不知道如何去解释这件事情......
想想目前能做的也只有老老实实的分析数据库和系统的日志了,等奋战了一夜的
同事们吃完早饭回来在了解详细情况吧。
日志的分析结果让我很无奈。
数据库最后的日志如下:
Wed Jul 04 00:27:04 2012
Archived Log entry 28154 added for thread 1 sequence 9361 ID 0x6bfce3e9 dest 1:
前面的日志都很正常,没有任何的错误信息。
手机的未接来电记录显示第一个未接来电是监控中心打来的,在0:34 分。
公司的监控中心离公司比较远,且数据库主机无法远程登录,所以监控人员无法解决问题.
随后在2:10分,SA到达现场后,无法登陆主机,通过强制关电源重启了操作系统。
从00:27 到2:10分在此期间:
1.数据库没有留下任何日志。
2.监控程序也没有留下任何日志
3.操作系统也没有任何日志。
这意味着什么呢?可能是硬件出了问题。为什么呢?
1.因为数据库在正常情况下,半小时做一次强制归档,但这个期间没有看到任何归档信息。
2.SA通过鼠标键盘无法登陆到操作系统,排除了网络的故障。
3.数据库、监控程序、操作系统三类不同的程序,在同一时刻同时失去了响应,大约只能是硬件导致的。
当然这只是猜想而已,证据呢?
DELL的工程师给了我们一个链接,用来收集硬件信息。
.asp?fid=20&tid=276581
把收集来的信息反馈给DELL的工程师,得到的答复是硬件正常,没有问题。
看来找DELL厂商是没希望了,给一个做系统集成的朋友打电话。描述了我遇到的情况。
当我说到是DELL的服务器时,他反问我说是不是R710,我回答是。
电话那头传来他得意的笑声,并用同情的口气说到‘不用查了,我已经遇到两家客户反馈DELL R710
在使用大约半年时间后,有一批同型号的机器莫名其妙的死机。现象跟你描述的差不多‘。
听到这个消息我顿时无语,只能自认点背了。
但也不能偏听偏信,去google一把,果然有几个类似的案例。还能说什么呢?
宁可信其有,不可信其无。决不能让同样的事情在发生一次。。。
1.加强演练应急预案
2.准备打报告,换机器。。。。。。
3.经历的这次事故后,手机状态改了为铃声加震动,会议中除外。
更多推荐
DBA与手机铃声
发布评论