6月3日の月曜日の朝から、会社サーバのボリュームがクラッシュしました。
サーバが提供しているチャットやカレンダーなどのすべてのサービスが使えなくなって、ファイルサーバの機能も停止しました。
ハードディスクの故障に備えてRAIDもしっかりしてるし、ホットスペアという故障時に自動で切り替わる予備のハードディスクも準備してあるし、バックアップもしっかり取ってあったのですが、いきなりボリュームを消失して何もできない状態へ突入しました。
バックアップサーバから必要なデータを個別に取り出してUSBメモリとかメール添付で技師さんにデータをわたしてCAMをやってもらったので加工はすごく効率が悪いながらも続行してもらいました。
しかしサーバを中心に仕事をしている事務のほうはなんも仕事が進まない。。。
メール書くぐらい。
でもデータがサーバから読み出せない。
ハードディスクが壊れていないのにボリュームがクラッシュしたのが意味不明で、「そういう事例はユーザでできる対応策がないからサポートに連絡せよ」とのことなのでサポートに問い合わせると、とりあえず消失したボリュームを手動で回復してくれて(良かった良かった)、「こういうときは大体メモリのせいだ」と指摘をうけました。
メモリ負荷試験をしてみたら、複数個のエラーがでました。(このメーカーさんのサポートすごい)
というわけで、朝早くからメモリを換装してメモリの負荷試験をしています。。。。2時間ちかくかかってます。
【関連する記事】
おおむね復活しました