システム障害の障害概要と所管を記載しています。
■概要
IOTサービス(携帯電話とは別のHLR/HSS)のメンテナンスで新設備に切り替えの際に、新設備で不具合が発生したため、10/14 7時半ぐらいから切り戻しを実施。
この切り戻しの際に、位置登録(端末を利用するために必要な情報)を旧設備に移行の際、IOT(Internet of Things)端末の切り替えを20万台づつ、実施した際に、処理に耐え切れず輻輳が発生。
通常ユーザに影響が及ばない想定だったが、ネットワーク全体が高負荷になり、位置登録信号を制御することによって、ネットワーク保全を図るが、この制御が一律でしかできないため、ユーザ側の接続ができない事象が発生。
10/15 5時まで4Gの復旧がかかる事態になった。
■所管
今回の対象となるIoTは、タクシーの電子決済や自動販売機などの存圏情報を管理するもの。確かに作業対象の影響だけで見ると通常ユーザに影響がないもので切り戻しも想定では妥当な判断だったのだろうが、気になる点がある。
今回の事象の時間が想定作業時間だとすると、10/14 0-7時で作業実施/切り戻し判断があり、切り戻しが、今回の輻輳の発生した17時にかかってるのが計画通りであれば日中での処理が多くなる時間帯が作業想定になっていたのであれば計画自体に無理があったのではないか。