HDDがまたとんだ
前回とは別のマシンでまた…… 復旧作業中はおおむね終わりました。
以下、顛末のようなもの。有用な情報はないです。
RS-232Cはどこへ?
月曜の朝方、RAID箱から警告音が鳴りはじめた。まずは状態を確認しようと思ってminicomを起動した。が、接続できない。
使っているのはARC-5010という内蔵のRAID箱で、これはRS-232Cで接続して操作できるようになっている。状態確認も同様。先日のトラブルのときにケースを変えたので、まだRS-232Cを接続していなかったのだったかな。そう思ってケースをひっぱり出すとたしかに接続されていない。ぷらんとしている。接続しなきゃともぐり込んだところで困ってしまった。うちのマシンからRS-232Cがなくなっている。
なんとも間抜けな話だが、パーツの交換を繰り返すうちにRS-232Cを持っているマザーボードから、持っていないマザーボードへと変えていってしまったようだ。二台あるPCのどちらにもRS-232Cはない。すぐに使えるノートPCもないし、MacにもRS-232Cなんてない。
時間をおくのは心配だけど、なにせ状態を確認できないのだからRS-232Cを買ってくるほかない。
SRC06USBを得て、HDDをもう一つ失う
いつもの通りIRCできいて、調べて、無難そうで入手しやすそうなSRC06USBを買いに横浜まで出掛けた。どうせ出掛けたので、ついでに用事をいくつか済ませる。そうして帰宅。SRC06USBは難なく使うことができ。minircのポートだけ変更すればARC-5010の状態確認が可能となった。どうだったかというと、五本あるうちHDDのうちの二本に障害が出ていた。
四本でRAIDを組み、残りの一本をホットスペアとしていた。ログを見ると、RAIDメンバーの一本がまずとび、再構築が始まって一時間ほどしたところでホットスペアだったHDDがとんだようだ。逆算してみると、ちょうど出掛けたあたりではHDD二本に異常が出ていたのではないかと思われる。こうなると…… まあ、どうしようもない。
徒労
それでもkernelはまだ生きていた。ファイルシステムにさわると、ところによりbus errorが出る。というよりもbus errorにならないところもあるといった具合い。バックアップはとっていたので、重要なファイルが失われることはなさそうだ。ただし、この日記のここ数日上のデータはバックアップに入っていない。記事自体はRSSに出しているから入手可能だし、運よくキャッシュファイルが生きていた。wgetにも応答があり、キャッシュのコピーを得ることができた。
ではDBはどうかなと見てみると、こちらはダメのようだ。日記を表示できていない。mysqldumpをしてみようとするも、bus errorになる。どうもmysqldumpのバイナリにアクセスできていないようだ。
ファイルシステムはroになっているが、障害が起きていない別のディスクになら書き込める。他のマシンからmysqldumpをコピーして実行してみよう。あら、scpが動かない。お、sshは動く。それならリダイレクトでなんとか…… なった。ファイルを送り込む。mysqldumpだけでなくライブラリのいくつかもダメなようなので、これを繰り返すことしばし。なんとかmysqldumpは動くようになったが他のエラーが出る。やはりデータベースも影響を受けてしまっていたようだ残念。(実際にはmysqlを送り込んだり、MySQL/Rubyを直接使ってみたりもした。)
RAID再構築が進まない
SRC06USBのおかげで鳴り続けていた警告音を止めることができた。状態もわかり、これ以上データを取り出せないこともわかった。すでにどうにもならない状態だが、RAID的な整合性を取り戻さなければなるまいと、ストックしていたHDDへの交換を行った。まずは一本。エラーを示すLEDが消えて状態が「Rebuilding」となった。ところが実際の再構築が行われない状態になっており、いろいろとあったのだがファームの更新、メンテナンスコードの調査、コードの投入、とやってようやく再構築が始まった。
そこで外出しなければならい時刻になったので、もう心配するまでもないし、待ち時間ばかりだしと出掛けた。HDDのストックがつきてしまったので一本だけでも買っておこうと思いながら。
PATAなんてない
数年前から使っていたため個々のHDDのサイズは160GB。今となってはどこにもないようなサイズ。もちろん大きい分には困らないが、あまりに無駄が大きいのも困りもの。だがそれ以前に、サイズがうんぬんではなくPATAのHDDを近場で入手することができないのだった。
考えてみればあたり前。でもARC-5010にはPATAのHDDしか接続できない(PCとの接続はPATA/SATAの両対応)。ARC-5010は2004年からファンなども含めて何も障害なく使ってこれた。HDDの容量の関係でRAIDとしてのサイズも小さめだがまだまだ動く。でも次に障害が起きたらどうしようもない。HDD入手にコストがかかりすぎるとなると今後は使わない方向しかないか……。