IT関連

東証のシステム障害について考える

おはようございます。こんにちは。こんばんは。
ミッドです。

今日は日本の投資家たちが阿鼻叫喚になった(?)東証のシステム障害に関して、個人的な見解を述べたいと思います。私はあまり投資とか、株価とか、気にしていない側の人間ですが、影響はでかそうだな~とニュースを眺めていました。「arrowhead(アローヘッド)」って名称なんですね、知らなかった。ベンダー(システムの提供元)は富士通なのか~って感じです。

東証のシステム障害起因

今回はarrowheadの共有ディスク装置の1号機のメモリが壊れたとのこと。メモリは、システムの作業領域なので、これが吹き飛ぶとシステム自体が起動しなくなったりしますね。プレスリリース見ると、1号機2号機と記載されていますが、メイン・サブの2台の冗長構成(どっちかが死んでも大丈夫な状態)だったのでしょうね。

冗長構成とは

世の中の重要な仕組みは、こういった部品の故障や、ネットワーク経路の寸断という状況を想定して、あらかじめ冗長構成を組んでいます。例えばHDD故障を想定して、同じHDDを2枚構成しておきます。まったく同じデータを2つのHDDで保持しているので、1つのHDDが壊れても、もう一つが完全な情報を持っているので、システム稼働が続けられるという訳です。今回も1つの仕組みがなんらかの理由で壊れても、もう1台の方で稼働を続けられる想定でしたが、そうはならなかったようです。

なんで2号機に切り替わらなかったの?

切り替え用の制御機構で死活監視をしていたとのことですので、メモリが壊れてシステム不全になったが、制御機構は生きており、自分は生きていると主張し続けたのが原因と思われます(いわゆる半死状態)。死活監視は、朝起きるとお父さんが必ず食卓で新聞を読んでいて、「おはよ」と挨拶すると、「おはよ」と返してくれるような感じです。朝しかお父さんに会わないなら、1日1回の死活監視ですし、朝昼晩の食事であいさつするなら、3回の死活監視です。これが、今日の朝はお父さんがいない!となると、お父さんが死んでいる可能性がある訳です(出張してるとか、寝坊している可能性もあります)。間隔は5分に1回とかが多い気がしますが、重要な仕組みだともっとスパンは短いと思います。お父さんの死活監視は、何日が適切でしょうね。尚、お父さんは2号機には切り替わりません。

本当の原因は設定ミス?

プレスリリースの原因に「本装置が有している障害時の切替え機能のうち、メモリ故障に起因する障害パターンが生じた場合に、自動切替えが機能していないことが判明」とあり、対策に「切替え機能に関する検証を行った結果、本装置の設定を変更することで、メモリ故障に起因する障害において自動切替えを行うことが可能であることが判明」とありました。

私は、1日の会見などを聞いた限り、「メモリ故障で半死にだったならしょうがないな」と思ってましたが、これを読む限り制御装置にきちんと設定を入れ込んでおけば、未然に防げたってことなんですね。なので、メモリ故障が起因だけど、障害原因は設定ミスとなります。設定がないならメモリ故障が原因で、恒久対策を検討する必要があります。

めちゃくちゃ推測ですが、私はメモリ故障パターンの切り替えテストをやってない+設定が入ってると思ったら入ってなかったってことだと思うんです。なぜなら、メモリ故障パターンの切り替えテストって難しいんですよ。HDDは引っこ抜けばできますし、ネットワークはLANケーブル引っこ抜けばOKですし、電源周りもサーバの電源をバツンと落とせば確認できますが、メモリって稼働してるときに外すとか無理じゃないかなと思います。できなくはないけど、その機器が壊れるくらいの覚悟でやる感じかと。そうなると、正常稼働するのを確認するための切り替えテストで、機器をぶち壊すという本末転倒な状況となるので、

「メモリ故障の場合はこの設定入れておけば切り替わりますよ~」
「テストも難しいし、ベンダーさんもそういってるので、よし!」

って感じなのかなと。

まとめ

冗長性大事!テスト大事!設定確認重要!ただし、全部完璧にやると、糞ほどお金がかかりますので、システムの重要性を考えて、必要な対策をしましょう。

東証は、10月1日に障害発生・全取引中止、2日に完全復旧、5日に原因および恒久対策のプレスリリースなので、素晴らしいスピード感だなと思います(3日、4日は土日ですし)。特に、1日に障害後すぐに全取引を決断したのは、なかなかできることではないなと感心しました。最近話題の金融系の不正口座の件でもそうですが、影響すくないからまだ全部止めないって判断をしがちですが、きちんと大局をみてシステム止めるなんてスゲーぜ!と思いました。

ではでは

にほんブログ村 サラリーマン日記ブログ IT系サラリーマンへ
PVアクセスランキング にほんブログ村