2017/8/25発生のインターネット障害に巻き込まれた話




グーグルがやらかしてしまった案件

2017/8/25 12:25前後からインターネット回線に問題が発生し、通信がまともに出来ない状態になったユーザーが多数出ていました。

原因について当初わからなかったのですが、グーグルのオペミスの可能性が高いみたいですね。

(日経が名指しでグーグルとしているのに誤報でしたというのは考えにくいです)

[続報]OCNの通信障害、米グーグルによる誤った経路情報の大量送信が原因か



インターネットの経路情報は全世界で合計65万経路くらいあるそうです。

そして今回のグーグルのミスで、間違った経路情報(10万ほど)がBGPで流れてしまった結果、ルーティングテーブルの書き換えでBGPルータの負荷が高くなり、日本中で通信障害となったと。

そりゃ10万経路もルートの書き換えが発生すれば、捌ききれなくなりますよね。


障害発生時の状況


インターネットがたまに使えないよ、と申告ありました。


トラフィックを見ると冗長化している経路のうち、1回線のトラフィックが流れていないこと確認。

無事な方の回線に振り分けられると通信が出来るが、障害が発生している方に振り分けられると通信が出来ない状態のようです。



まず障害が起きているインターネット回線のルータにログインし、デフォルトルートのIPアドレス(ISP側IP)にPing送信すると、応答を確認しました。


ルータと回線に問題なさそう?



とりあえずISPのサポート窓口に電話連絡してみると↓↓


自動音声「ただいま障害報告が多数あり、お客様のインターネット回線に障害発生している可能性があります」的なメッセージが流れる。


ということで、回線側に障害発生していることを知る。



問題が発生していない側のインターネット回線を常時使うように、LANのルーティング等を一時変更で対応。

プロバイダ側の障害じゃどうしようもないよね、と諦める。
(一応各方面に情報は展開)


続いて、インターネットで情報収集を開始。


OCNで問題発生中との情報がすぐ見つかる。


結構規模が大きそうですね、と駄弁る。
14:00~15:00くらいに復旧を確認。


でもプロバイダの障害報告ページでは障害発生時間は12:25~12.35とか記載。解せぬ。


インターネット閲覧は冗長化で影響なし


上記の通り、2回線別々のインターネット回線を用意している環境で、インターネット閲覧に問題はありませんでした。

ただし外部公開サーバ側はこの通信障害に巻き込まれ、外部から見えない状態になりました。

対外的に使っている部分なので、下手したらこちらの方が障害影響度が高いと言えるかもしれません。

マルチホーミングを使って外部公開サーバを救えるよう用意する必要があるか、検討の余地ありです。


ところで


この件ってグーグルが御免なさいで謝ったらそれで終了なんでしょうか
損害賠償とか難しい事案なのですかね?

グーグルに限らず、どこかの企業がやらかす可能性が高いため、こういった事例はお咎めなしとか規約があるのかな?


しかしこの作業のオペミスした人はつらかったでしょうねぇ。
ミスって予期せぬタイミングでネットワーク断を発生させると、ほんと頭まっしろになります。








■関連記事

0 件のコメント :

コメントを投稿