[ニュース]よく分かる、東証 アローヘッド の故障に関するまとめ

ネットの記事だけを参考に、 東証 の件を適当にまとめさせていただきました。
 

 

・共有ディスク装置のエラーという表現が乱発されているが、あまり気にしないほうが良い。
・原因はディスクのエラーではない。
・原因は「設定ミス」と書いてある記事があるが、これが原因ではない。
・本当の原因はテスト不足。
・「自動切り替えできない設定になっていた」は誤り。
・「メモリ故障では自動切り替えが起こらない設定になっていた」が正しい。
・メモリとディスクは富士通製。
・トリガーとなったのはメモリ故障。
・メモリ故障では、待機系マシンに切り替える処理が動かなかった。(フェイルオーバー機構が動かなかった)
・それをテストしてなかったので気付かなかった。
・メモリ故障の危険性に気付いてはいたが、テストできなかったのでやってなかった。
・なぜそれを検知することができなかったのかというと、再現が難しくテストしてないから。
・メモリが壊れるということを想定していなかったから。
・メモリは非常に壊れにくい部品である。
・しかし、ハードウェア故障を想定しているシステムを作っておいてメモリ故障を想定してないとは……

 


富士通がとった対策について

メモリ交換と設定値を最適化した。

 

設定値というのは何を意味するのが範囲が広すぎるのでわからないが、エラー検知の範囲を広げたと思われる。
おそらくメモリ異常が発生した場合に起こりえるエラーをキャッチできるような設定をしたのであろう。

 

指摘

  • 設定値を変更したのであれば、再度「その設定値が適切かどうかのテスト」が必要なはずであるが、翌日までにこのテストが完了したとは思えない。
  • エラー検知の範囲を広げたことにより、エラー発生頻度が上がるはずなので、異常が多発するかもしれない。
  • また。「メモリエラーの再現は難しい」としていることから、再度メモリエラーが発生した場合のテストはできていないと思われる。
  • 本当にメモリ故障が原因かどうか、分かったものではない。

 

フォロー

  • まあ、いままで安定して動いてるのだからまあ問題ないでしょう。

 

フェイルオーバーとは

マシンを正と副で2台(2セット)稼働させておき、正に異常があった場合に副に切り替えること。

 

参考
## 東証売買停止、バックアップに不備 メモリー故障が発端  :日本経済新聞

 

## 東証システム障害、原因は「設定ミス」…故障想定のテスト未実施 : 経済 : ニュース : 読売新聞オンライン

 

## 東証、障害の原因を特定 「自動切り替えできない設定値になっていた」 – ITmedia NEWS
 
 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です