ANAシステム障害の原因判明、DB並列参照時にパッチ未適用の既知バグでフリーズ
全日本空輸(ANA)の国内線旅客系基幹システム「able-D」で2023年4月3日午後に発生したシステム障害の原因が判明した。周辺システムからable-Dのデータベース(DB)を参照する際、データベース管理システム(DBMS)のバグをきっかけにDBがフリーズしていた。バグは既知のものでパッチもリリースされていたが、同社はシステム構成上パッチ未適用でも問題ないとみて適用を見送っていた。<中略>
このDBMSでは、同時に複数のクエリーを投げるとまれにエラーが発生するバグが発見されており、2018年にはパッチもリリース済みであった。ただ同社はDBについて「DB1」「DB2」という2系統でクラスタリング構成を組んでいた。このことから、エラーが発生してもどちらかのサーバーに片寄せすることで継続稼働できるとにらみ、パッチの適用を見送っていた。ただ今回の障害では、バグによるフリーズの影響が同社の想定を超える範囲に及ぶ結果となった。
https://xtech.nikkei.com/atcl/nxt/column/18/00001/07915/
もう故意のシステム破壊だなw
どっかの新聞社で毎回shutdown abortしてたら不具合で止まった事があった
20年近く前
パッチあてるにはテスト環境作ってテストしなきゃならんからな
コスト削減のために余計に金のないかかったな
>>7
いま安定稼働してるなら、支障が出るまでパッチなんて当てたくないよね
>>7
ANAクラスなら検証、開発環境くらいあるんじゃねーの?
パッチ当てだって、テストしたりして精査しなきゃならんから大変だわな。
家のPCと違うし。今まで問題おきてなきゃ見送る判断もありだろ。
セキュリティにANAがあったか
ウチのOracleもパッチ当ててないわ・・・(ガクブル
テストする余裕が無い(涙
現場ねこ案件だったのか、、、
パッチ当てなくても問題無く動いてるからヨシッ!
よくある現場猫案件だな。
パッチあてる事で逆に不具合出るケースもあるからな
パッチ当てても当てなくても、システムダウンしたら責任取らされる
当てるよりは何もしない方が責められるリスクが減る
できれば当てたくないもんなパッチなんて
お気の毒様
昔なら鬼のように叩くのに現場の苦労が浸透しているのか、システム屋が多いからなのか
みんなの反応がやさしいのがほっこりする。
パッチあてで客からお金もらえるの?
環境作ってテストして復元準備してテストして当日は夜間作業でしょ?
結構費用かかりそうだけど
エラーで落ちること自体は二重化で対応してたなら
DB1の復旧に想定より時間がかかったのか
処理件数が想定より多くてDB2だけじゃ捌き切れなくなったのか
どっちの問題なんじゃろな
>>38
DB1が特定データ喰ってバグでフリーズ、レプリケーション先のDB2がマスター昇格したけど同じデータ喰ってフリーズ
って風に見える
ANAはちょくちょくシステム障害起こしてるよね。2016年にもDB周りで障害起きてたような
仮想環境上でMariaDB使ってるシステム作ってるんだけど、
不定期にクエリが戻るまで一秒くらいかかるときある。何これ教えて
俺もアップデータの不具合でDB壊したことあるからな
小さいシステムで実行前に丸ごとイメージを取ってあったんですぐに復旧できて事なきを得たけど
パッチとかアップデートってその適用自体がリスクだし、ホストとかの作業だと関連する業務全部止めなきゃならなかったりするから
いま問題なく動いてるんならむしろいじらずにそのまんまってとこも多いだろね
パッチ出たのが5年前のシステムって古すぎね?
>>47
アメリカでも昭和システムのところがあったし
そんなもんだよ
パッチ当てるのもリスクだもんな
かわいそう