みずほ銀行のシステム障害の原因とは?ATMトラブルの改善は不可能!?
みずほ銀行は日本の3大メガバンクの一角である都市銀行です。
全ての都道府県に支店があることから、利用者が約2,400万。 日本の人口の約20%、つまり約5人に1人はみずほ銀行の口座を持っているといえます。
そんなみずほ銀行で、2021年2月から現在(2022年2月)にかけて11回ものシステム障害が発生。 ATMの停止によってカードや通帳を取り込んだまま停止する、など顧客に多数影響を与えています。
他のメガバンクではこのような障害は発生せず、去年からみずほ銀行ばかり目立ってトラブルを引き起こし 障害発生のニュースが報じられると、「またか」と言われるイメージとなってしまっています。
また、障害の多発を受け、みずほFGの佐藤康博会長、坂井辰史社長、 みずほ銀行の藤原弘治頭取らが4月に引責辞任する予定との発表がされています。
なぜこのような障害が立て続けに発生しているのでしょうか。
1人の顧客として、システムエンジニアとしての発生原因の解説を行っていきます。[記事一覧]
ここ一年間のシステム障害の内容と原因
1回目:2021年2月28日 ATM最大4300台が停止 原因:「取引情報管理テーブル」のインデックスファイルのメモリ容量超過 2回目:2021年3月3日 ATMカードを取り込むトラブル 原因:データセンターに設置のネットワークスイッチが故障 3回目:2021年3月7日 ATM、みずほダイレクトで定期入金の取引が不成立 原因:プログラムの設計ミス 4回目:2021年3月12日 外国為替送金の遅延 原因:ストレージ装置内の通信制御装置の故障&復旧の準備不足 5回目:2021年8月20日 店舗窓口の取引停止 原因:DB、ディスクの故障、バックアップも機能せず 6回目:2021年8月23日 ATM最大130台が停止 原因:ネットワークの不具合によるATMの通信障害 7回目:2021年9月8日 ATM最大100台が停止 原因:「取引共通基盤」のディスク装置の故障 8回目:2021年9月30日 外国為替送金の遅延 原因:月末の処理集中によるシステム高負荷 9回目:2021年12月30日 ATM、ネットバンキングで一部振込不可 原因:システムの設定ミス 10回目:2022年1月11日 法人向けネットバンキングの一部ログイン不可 原因:データベースサーバーの処理遅延 11回目:2022年2月11日 ATM全国90カ所が停止 原因:システムの設定ミス
ニュースではシステム障害と大きなジャンル分けで報じていますが、システムの設定ミス、故障、高負荷、設計ミスと内容は様々です。
みずほ銀行だけシステム障害が多い理由
三菱UFJ銀行、三井住友銀行、みずほ銀行が日本の3大メガバンクとなっていますが、 みずほ銀行のみが、ここまで目立ったシステム障害が発生しています。
3大メガバンクということで、システムの内容や、利用者の多さなど システムの規模は似ているものと思われますが、なぜみずほ銀行だけ障害が多発しているのでしょう。
合併によってできたメガバンク
まず上記の3大メガバンクは複数の銀行の合併によりできています。
三菱UFJ銀行は、旧東京三菱銀行と旧UFJ銀行の合併
三井住友銀行は、旧住友銀行と旧さくら銀行の合併
みずほ銀行は、旧第一勧業銀行と旧富士銀行と旧日本興業銀行の合併です。
複数の銀行を合併する際は当然、使用するシステムなどの変更が必要で当然、みずほ銀行はもちろん三菱UFJ銀行、三井住友銀行も合併の際にシステムの変更を行っています。
ここまでは3つとも同じですが、みずほ銀行は他2つと比較したところ そのシステムの変更方法が異なっていたのです。
三菱UFJ銀行、三井住友銀行は「片寄せ方式」という方法で新システムを作成しました。
合併時に片寄せ方式にてシステムを開発した 三菱UFJ・三井住友
まずみずほ銀行と比較した他メガバンクの三菱UFJ銀行、三井住友銀行の2社は合併する際「片寄せ方式」という 合併する銀行の中で使用しているシステムから1つを選び、それに寄せる形の新システムの開発を行うという方法です。
最初の基盤となるシステムを使用していなかった銀行の社員は、最初は慣れず利用感に戸惑うかと思います。 しかしシステム自体の安定感や運用方法は、以前とほぼ同じように行えることで障害は少なくなり、非常時の対応も過去のシステムを知っているSEからすれば同じように行うことが可能です。
合併時に新システムを開発したみずほ銀行
一方、みずほ銀行の合併の際のシステム変更方法は、 合併した3つの銀行それぞれの、良い所のみを採用した全く新しいシステムの開発を行いました。
それは運用費や、社員のことを思った案かと思いますが、それが裏目に出てしまい障害が多発するシステムとなってしまいました。 これがシステム障害の多い根本的な原因といわれています。
ネットワーク機器の構成がメガバンクとして信頼性が欠けている
上記のようなシステム自体の根本的な原因もありますが、ここ1年の11回のシステム障害の中には そのシステム内容が関係ない障害も多く発生しています。
11回の内4回が、「機器の故障や不具合」によって発生した障害ということで、システムの内容は関係ないといえます。
更に「故障時のバックアップへの切り替えの失敗」など、管理体制、ネットワークやサーバの信頼性設計や準備が十分でなかったということです。
ネットワーク機器は通常5年ごとに新しい機器に交換するが一般的で、不具合がなくても当たり前のように更新を行います。
まずその更新を必要ないと判断し怠ったという点と、故障すれば障害が発生する位置で稼働しているネットワーク機器を、冗長化せずに使い続けるということは、どれだけ予算がない中小企業も避けていることです。
ネットワーク設計というものは、機器に物理的障害が発生することを前提とし、どのように論理的に回避するかを考えます。
○○が故障した場合、こっちの機器に切り替わり、この経路で通信を行うことで障害を回避。
もしこっちが故障すれば、こっちが機能して…、
といったように何パターンもリスクを考慮し設計を行う。 といったことは別に大きな企業のネットワークでなくてもよくあります。
リスクを考えた設計を理解し、採用することでネットワークの障害は回避できると思われます。
みずほ銀行はATMトラブルの改善は不可能!?
正直なところ、みずほ銀行はシステムの設計、設定ミスによる障害はもう防ぐことができない、と私は考えています。
この11回のシステム障害をみても、システム内容に不備があり障害が発生→対応→回復→別で発生… という繰り替えしであって、発生した箇所の修繕で手一杯、未然に防ぐところまで手が回っていない印象があります。
これはもう合併の際の新システムというものに問題があり、2018年に再度開発し起死回生を試みた新システム「MINORI」での立て続けのシステム障害が発生していることから、今後も試行錯誤が続きそうな印象です。