Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

インターネット全体が一夜にして消えた方法

概要

11月18日にCloudflareで発生した設定エラーが、X、ChatGPT、Spotify、Uberなどの主要サービスに一時的な障害を引き起こす連鎖的なアウトageを引き起こしました。

インターネット全体が一晩で消えた方法

想像してみてください:目が覚めて、電話を手に取り、いつものアイコンをタップします。Xが読み込まれません。ChatGPTがあなたの質問に答えません。YouTubeがあなたの動画を表示しません。普段は物事が壊れているかどうかを確認するために使っているDowndetectorさえも…壊れています。

11月18日の数時間、世界中の何百万もの人々にとってそれが現実でした。現代インターネットの背後にある重要なインフラストラクチャ企業の一つであるCloudflareの大規模な障害が、X、ChatGPT、Spotify、Uber、Canva、League of Legendsなど、幅広いサービスをダウンさせたり、品質を低下させたりしました。

「インターネット全体」が消えてしまったように感じた。実際には、それはより小さく、より恐ろしいものであり、1つの企業のシステムの単一の障害がウェブの大部分に連鎖して広がっていた。

Cloudflareで実際に何が悪かったのか

問題は火曜日の早朝、(年11月18)の米国時間に始まりました。午前6時20分頃、Cloudflareはそのシステムの1つを通過する異常なトラフィックの急増を確認しました。数分後、Cloudflareに依存するウェブサイトは「内部サーバーエラー」ページを表示し、世界中のユーザーに対してタイムアウトを引き起こし始めました。

ダウンドテクターやソーシャルメディアに障害報告が多く寄せられる中、Cloudflareは「複数の顧客に影響を与えている問題を認識し、調査中である」と投稿しました。エンジニアたちは最終的に原因を特定し、修正を行い、混乱が始まってから約3時間後にトラフィックは徐々に正常に戻りました。

会社は重要なポイントを強調しました: サイバー攻撃の兆候はなかったということです。これはDDoSでも、ランサムウェアの事件でも、国家の関与でもありませんでした。内部の技術的な失敗でした。しかし、ユーザーにとっては、その原因は重要ではありませんでした。彼らの体験はシンプルでした: インターネットが機能しなくなったのです。

Cloudflareの役割(とあなたがそれについて聞いたことがない理由)

ほとんどの人は意図的にcloudflare.comを訪れませんが、毎日そのネットワークに触れています。Cloudflareは、あなたと使用するウェブサイトの間のインターネットの「経路」の真ん中に位置しています。簡単に言うと、Cloudflareは:

  • コンテンツをキャッシュし、トラフィックを効率的にルーティングすることでサイトの速度を向上させる(コンテンツ配信ネットワーク、またはCDN);
  • DDoS攻撃や悪意のあるボットから保護します;
  • トラフィックをスクリーニングして、安全に見えるものとそうでないものを判断します。

その会社は、世界中のすべてのウェブサイトの約5分の1のトラフィックを処理していると述べています。また、毎秒膨大な数のHTTPリクエストを処理し、静かにウェブの大部分のバウンサーおよびトラフィック警察として機能しています。

そのスケールは、すべてがうまく機能しているときは素晴らしいです。しかし、そうでないときは、インターネット全体が突然脆弱に感じることがあります。

クラッシュを引き起こした小さなファイル

Cloudflareの事後分析は驚くほど平凡な物語を語っています。構成ファイル(基本的にそのボットと脅威管理システムによって使用される一連のルール)が自動的に生成されていました。時間が経つにつれて、そのファイルはエンジニアの予想以上に大きくなりました。

ある時点で、いくつかのCloudflareサービスのトラフィックを処理するソフトウェアにおいて、ハードリミットを超えてしまいました。そのコードに潜在するバグのため、システムは優雅に失敗しませんでした。その代わりに、過剰なサイズのファイルがコアトラフィック処理コンポーネントのクラッシュを引き起こしました。

そこから、事態はエスカレートしました:

  • ボット管理機能が新しい、サイズが大きすぎる設定を適用しようとしました;
  • プロセスはファイルを拒否する代わりに繰り返しクラッシュしました;
  • そのクラッシュは、同じソフトウェアに依存している複数のサービスに波及しました;
  • より多くのノードが失敗するにつれて、Cloudflareのネットワークの大部分がウェブページの代わりにエラーを返し始めました。

CloudflareのCTO、デイン・クネヒトは、障害を「受け入れられない」と呼び、同社が顧客と広範なインターネットに「失敗した」と述べ、単一の設定バグが同じような連鎖反応を引き起こさないようにするための変更を約束しました。

障害は悪化しているのか、それともただ騒がしくなっているのか?

これらの事件がより頻繁に発生しているように感じるなら、あなただけではありません。このCloudflareの障害は、数週間前に発生した大規模なAmazon Web Servicesのインシデントの直後に発生しました。このインシデントは、SnapchatやRedditから、企業が日常的に依存する内部ツールに至るまで、何千ものウェブサイトやアプリをダウンさせました。

ネットワーク監視企業は、数年間にわたりインターネット全体での大規模な障害を追跡してきました。彼らのデータは、ある微妙なことを示唆しています:

  • 毎年の大規模な障害の数は爆発的に増えているわけではない;
  • しかし、各障害の影響は大きくなっています。なぜなら、より多くのサービスが同じ中央プロバイダーに依存しているからです。

20年前、もしあなたの雇用主のメールサーバーがダウンしたら、それはあなたの一日を台無しにしましたが、会社にとってのみでした。今日、CloudflareやAWSが不調な朝を迎えると、何百万もの人々やビジネスが一度にその影響を受けるのです。

その上、人々は今やX、Reddit、TikTokであらゆる不具合を放送しています。かつて「メンテナンスの問題」として静かに過ぎ去ったかもしれない出来事は、今や世界的な危機のように見え、感じられます。

プロバイダーの減少、リスクの増大

クラウドフレアの障害は、AWS、Azure、その他の主要なインフラストラクチャープレイヤーで見られる繰り返しのパターンに合致します:

  • 内部の小さな変更 ( 設定の調整、ソフトウェアの更新、誤動作するスクリプト) がシステム内のいくつかの隠れた仮定と相互作用します;
  • エラーハンドリングが早すぎる段階でそれをキャッチしない;
  • 自動化システムは問題を抑制するのではなく、拡大させる。
  • その事件は、同じプラットフォームに依存している多数の顧客に広がっています。

私たちは、速度、コスト、グローバルスケールのためにインターネットを最適化しました。それらを得る最も簡単な方法は、データセンターが至る所にあり、世界クラスのエンジニアリングチームを持つ巨大なプロバイダーを数社利用することです。

トレードオフは集中化です。ローカルISPに問題が発生すると、町全体がオフラインになります。Cloudflareが失敗すると、まるでインターネット全体が消えてしまったかのように見えます。

テックリーダーがクラッシュについて語っていること

イーロン・マスクはCloudflareのバグについて直接コメントはしていないが、彼は過度に集中化されたデジタルインフラについて繰り返し警告してきた。特に、Xのレジリエンスやより自己ホストされたシステムへのシフトに関連している。2023年から2025年にかけて、彼はインターネットの大部分を運営するために1つのプロバイダーに依存することは「単一障害点の問題」であるとし、これはAWS、Apple、Google、Cloudflareスタイルのレイヤー、さらには携帯キャリアにも当てはまる批判であることをしばしば指摘してきた。

CloudflareのCTO自らが、ダウンタイムに対して最も強く明確な反応を示しました。クネヒトは公に謝罪し、この事件は「受け入れられない」と述べ、どれだけ多くの組織やユーザーがCloudflareのインフラに依存しているかを強調しました。また、原因は攻撃ではなく、カスケード障害を引き起こす構成バグであることを強調し、今後これを防ぐことが最優先事項であると説明しました。

アマゾンウェブサービスの最高エバンジェリストであるジェフ・バールは、Cloudflareの障害については言及しませんでしたが、彼はAWSの障害や、グローバル規模の障害の背後にある一般的なパターンについて頻繁に議論しています。彼の長年のメッセージは、システムが相互接続されているほど、プロセスが自動化されているほど、連鎖的なエラーのリスクが高まるというものです。

そして最後に、CloudflareのCEO、マシュー・プリンスが声を上げました。彼は、インターネットの繊細なアーキテクチャについて何年も語ってきました。特に、誰も気づかない部分が壊れるまで気づかない部分です。彼はよく、ウェブの核心的な健康は完璧さではなく、回復力に依存していると主張します。

彼は次のような繰り返しのテーマを持っています:

  • 最大の脅威は攻撃者ではなく、内部の誤設定である;
  • 冗長性はすべてのレイヤーに組み込まれなければならない;
  • インターネットは「驚くべき量のダクトテープ」でつながれています。

彼はこの障害の初期の影響の間に長い公の声明を出さなかったが、彼の過去のインタビューのテーマは直接的に適用される。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン