caboのIT系Tipsの情報まとめ

インフラエンジニアなのでそれに関連したIT関連の記事や技術情報をメインに扱います。また、趣味のアウトドアや写真(主に風景)が好きなのでそちらもネタがあれば載せようと思います。

みずほ銀行8月障害(2021/8/20)

システム障害の障害概要と所管を記載しています。

 

■概要

 

勘定系システムとの店舗端末を連携させる機能の業務チャネル統合基盤での障害。

業務チャネル統合基盤システム上のDB(Symfoware Server)が稼働する外部ストレージでのDiskのFailが発生。冗長構成のDiskが複数Failしたことにより、外部ストレージのデータが破損。

システムはDBの冗長化として正副での構成となっており、DBサーバ副に切り替わるが、完全冗長構成でのデータ保全をする設定だったため、DBサーバ正副のデータ債があり、HAの切り替え失敗。

DBサーバ副の手動起動を実施するが、手順書不備のため切り替え失敗。

サイト間レプリケーションをしていたデータが残っていたため、メインセンターの千葉からサブセンターの千葉でのサービス起動をするが、9時の業務開始に間に合わず業務影響が発生。

 

 

■所管

得意分野なのだが、初動の対策としては、今回の障害の発端のDiskの予兆検知、予備交換は最低限必要だと考えられる。

そもそもDiskの多重障害の話はよくあり、Diskのロットで一斉に障害になるケースをよく聞くが、ハードサプライヤーは考慮がなく出荷時にDiskのこのなる製造ラインを混在するような対応はしてくれない。粘り強く交渉が必要。

 

記事内容からするとDBサーバは4台あり特に一般的に構成がおかしいとは思われない。ストレージ装置の冗長化も検討できるが、今回のメインセンターの正副の方が障害における対応に柔軟性がある。

Symfoware ServerとPRIMECLUSTER?を利用しているのかは不明だがHA製品との親和性の問題。2フェーズコミットでHWの完全同期でなく、おそらくSoftwareのレプリケーションのため正系の障害発生の際にデータロストが発生し、副の機能ができなかったのか。それともHA製品の不備なのか。いづれにせよ、正のストレージが障害発生したときに切り替わらないのはHAの設計不備。

 

副系の起動に失敗したのは、手順不備。手順不備があっても有識者がいればカバーできる範囲だと思うが、おそらくそのようなことができなかっただろう。

今までこのようなシステムのリストアリカバリ手順をそれなりに納品してきたが、有事の際に運用メンバーで戻せるとは思えない。

そもそも、専門性のある手順で、導入当初から何らかしらMWのバージョンアップや接続性、設定など変更しているのでそれを踏まえたリストアリカバリ手順をちゃんと管理していますという会社を見たことがない。

有識者をちゃんとかかえられないと、いざというときに運用を主体としたメンバーでは対応できないのでセキュリティと同じで有事の際を想定して、必要コストと認識し技術者をちゃんと育成して配置しておかないと対応できない。