Home > 故障はCPUボード?

故障はCPUボード?


  • Posted by: F&F
  • 2009年3月10日 10:35

気象庁の情報配信システムが17時間に渡って停止していた。
原因はSUNのマシンのCPUボードの故障だったそうだ。

システムは二重化されていて本番サーバが故障すると予備系サーバが即座に稼働する予定だった。
しかしそう行かなかった。
両サーバは共有ストレージを持っていてデータを共有する構成になっていたようだが、本番系サーバが死んだときに引き継ぎ用のデータを予備機に渡せなかった。
共有ストレージ関係のハードウエアも一緒に故障したのか?処理系システムのバグなのかは現時点で不明だ。
いずれにしてもファイルが壊れたことに間違いはなく、これを修復するなど対応に追われたようだ。
故障したCPUボードも交換が行われたわけだが、共有ファイルの情報が読めないために本番系のハードが直ってもそれを稼働させることは出来なかったという。

F&Fサーバでも先日はミラー化されているHDDが読めない状況になり停止した。
多重化による信頼性の確保も、それにどこまで頼って良いのかは問題だと思う。
今回の気象庁のシステムでもホットスタンバイを採らずにシステムを構築していたならば、CPUボードの交換に要する数時間の停止で済んだかも知れない。
或いはホットスタンバイではなく、予備機へ手動で切り換える方式であったらどうだろうか。

しかしこの手の業務系の場合、本番機を異常状態にしたテストくらいやっていそうなのだが…

   

Comments:1

Kent@ 2009年3月10日 21:56

財団法人の仕事ですからねぇ。。。

やっぱり適当なところがあるんじゃないかなぁ。。。と。

配信用サーバもサーバルームに入れてるのかと思いきや、
意外と普通の机においてあるだけだったし(ニュース映像では)

いままでトラブルが無かったのが不思議なぐらいだと思ってしまった
私はひねくれ者なんでしょうか。。。?

コメント投稿には JavaScript が必要です。ブラウザのJavaScript 機能を有効にしてください。

サインインしなくてもコメントの投稿は出来ます。
サインインしている場合はお名前などを入力せずに、そのまま投稿できます。

登録は簡単&それによって何かが起きるわけではないのでお気軽にどうぞ。
登録ページ書き込み→確認メール送信→確認メールのURLクリックで承認、の手順です。
確認メールに書かれたURLにアクセスしないと登録は完了せず、正しいログイン状態に移行できません。
コメント フォーム
コメント投稿完了までには少し時間がかかります。
二重投稿にご注意下さい。

Home > 故障はCPUボード?



VC