みずほ銀行のシステム障害特別調査委員会の調査報告書

今話題のみずほ銀行のシステム障害の調査報告書を読んだので まとめてみます。※個人的認識と見解です。

1/4回目 2021年2月28日の障害

  1. INDEX肥大によるディスクフル
  2. 通帳・キャッシュカードがエラー時にATMに飲み込まれる
  3. デッドロック
  4. ロールバックエラー(取引データがない、移行漏れ・誤削除etc データがない理由は不明)

MHRTにおいて、オンラインで行われる処理が発生するたびに、同INDEX FILEのデータ量が増加するという認識がなかったためである。

3番4番は、富士通DBの仕様によるところらしい DB自体ではなく人起因によるものと言う点に注意

みずほ銀行システム障害の原因に疑問、気になる「前日の運用」 | 日経クロステック(xTECH)

2/4回目 2021年3月3日の障害

ネットワーク機器の故障 3分間の停止 システムの運用側は自動切換えで問題なし

このときも通帳・キャッシュカードが飲み込まれ返却されない人もいた エンドユーザ対応がおろそか(コールセンターにつながらない。セコム的な人が来てカードが返却されるはずが、人が来ず返って来ず)

3/4回目 2021年3月7日の障害

新規リリースプログラムにバグ。定期預金の取引が約6時間の停止 設計漏れ・設計のチェック漏れ、テスト漏れ、委託先管理せず、と思われる。

4/4回目 2021年3月12日の障害

ディスク装置故障、自動復旧せず、手動復旧手順わからず、外国為替取引の約7時間の停止 SLA合意不十分?復旧手順が充足しておらず、障害訓練もなし。 SLA周りで日立とトラブルになったか…

みずほ銀障害、複雑化する原因究明 運用、システム供給の双方に不備 - 産経ニュース

原因(組織部分にフォーカスしてます)

第4に、「体質ないし企業風土」に係る課題については、本障害という有事において、自らの持ち場を超えた積極的・自発的な行動によって、問題を抑止・解決するという姿勢が弱い場面がしばしば見受けられた。また、障害の内容・顧客への影響の全容が完全に明確ではない時点において、リスクがあるものとして、発言し行動することを控えるような状況も認められた。役職員にこのような積極的・自発的姿勢が欠ける要因としては、積極的に声を上げることでかえって責任問題となるリスクをとるよりも、自らの持ち場でやれることはやっていたといえる行動をとる方が組織内の行動として合理的な選択になるという企業風土があるためではないか、と思われた。

心理的安全性というところ。

特に、要所への「外部人材の登用」は、組織全体に新たな視点を持ち込み、企業風土を変える契機ともなり得るものとして高く評価できる。したがってまた、それを可能とする適材が求められる。これらの再発防止策は、組織、ルールや手続を表面的、形 式 的に変更すれば足りるものではなく、その実効性と継続性の確保が不可欠である。そのためには、当該方策の趣旨、目指すものが何であるかを経営陣が明確に示して、全役職員に周知させ、目的意識を持って主体的に事にあたらせる必要がある。上記第4記載の基本的な課題は、再発防止に向けた取組みの指針とされるべきである。そのような継続的な努力の積重ねと定期的なフォローアップの実施によって初めて、その実効性を確保できるものと思われる。

偉い方々の処遇については、なんとも言えないですが、

現場の方々には、よく頑張って乗り越えてくれた、と手当などで応援していただき

今後どうしたらより良い組織づくりができるか、「積極的に声を上げること」を受け入れられる、推奨する組織になってもらいたい。

みずほシステム障害で11人処分、「二度と起こさない」と坂井社長 - Bloomberg