掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

整個互聯網是如何在一夜之間消失的

簡要

11月18日,Cloudflare的配置錯誤導致了連鎖故障,暫時中斷了全球諸如X、ChatGPT、Spotify和Uber等主要服務。

整個互聯網如何在一夜之間消失

想象一下:你醒來,拿起手機,點擊熟悉的圖標。X 無法加載。ChatGPT 沒有回答你的問題。YouTube 不顯示你的視頻。即使是你通常用來檢查是否出問題的 Downdetector 網站也……壞了。

在11月18日的幾個小時裏,這對全球數百萬人來說是真實的。一場Cloudflare的重大故障,作爲現代互聯網背後的關鍵基礎設施公司之一,導致包括X、ChatGPT、Spotify、Uber、Canva、英雄聯盟等在內的多種服務癱瘓或降級。

感覺就像“整個互聯網”都消失了。實際上,這是一件既小又可怕的事情:一家公司的系統中的單點故障導致了大部分網路的連鎖反應。

Cloudflare到底出了什麼問題

問題始於周二早上 (美國時間。大約在東部時間上午6:20,Cloudflare 發現其系統中有異常流量激增。幾分鍾後,依賴於 Cloudflare 的網站開始向全球用戶顯示“內部服務器錯誤”頁面並超時。

隨着Downdetector和社交媒體上的故障報告不斷增加,Cloudflare發布消息稱,他們“意識到並正在調查”影響多個客戶的問題。工程師最終找到了罪魁禍首,並推送了修復,流量在故障開始後大約三小時逐漸恢復正常。

公司強調了一個關鍵點:沒有網路攻擊的跡象。這不是DDoS攻擊、勒索軟體事件,也不是國家行爲者。這是內部技術故障。不過,對於用戶來說,原因並不重要。他們的體驗很簡單:互聯網停止工作。

Cloudflare的功能)以及你爲何從未聽說過(

大多數人並不會故意訪問 cloudflare.com,但他們每天都會接觸到它的網路。Cloudflare 位於您與所使用的網站之間的互聯網“路徑”中。簡單來說,Cloudflare:

  • 通過緩存內容和高效路由流量來加速網站 )內容分發網路,或CDN(;
  • 保護他們免受 DDoS 攻擊和惡意機器人;
  • 篩選流量以決定什麼看起來安全,什麼看起來不安全。

該公司表示,它處理全球大約五分之一的網站流量。它還每秒處理大量的HTTP請求,默默地充當着網路巨大部分的保鏢和交通警察。

當一切運轉良好的時候,那種規模是很棒的。當它不起作用時,整個互聯網會突然感覺很脆弱。

導致崩潰的微小文件

Cloudflare的事後分析講述了一個出乎意料的平凡故事。一個配置文件)基本上是其機器人和威脅管理系統使用的一組規則(被自動生成。隨着時間的推移,該文件變得比工程師預期的要大。

在某個時刻,它超出了負責處理多個Cloudflare服務流量的軟件中的硬限制。由於該代碼中的一個潛在錯誤,系統沒有優雅地失敗。相反,超大文件觸發了核心流量處理組件的崩潰。

從那裏,事情升級了:

  • 機器人管理功能嘗試應用新的、過大的配置;
  • 該過程反復崩潰,而不是拒絕文件;
  • 這次崩潰波及了多個依賴於相同軟件的服務;
  • 隨着更多節點的故障,Cloudflare 的網路開始返回錯誤而不是網頁。

Cloudflare的CTO Dane Knecht稱此次故障爲“不可接受”,並表示公司“辜負”了其客戶和更廣泛的互聯網,承諾將進行改變,以確保單一配置錯誤不會再次引發同樣的連鎖反應。

停機事件是變得更糟,還是只是更響了?

如果你覺得這些事件發生得越來越頻繁,你並不是唯一一個。這個Cloudflare故障發生在幾周前,緊接着是一起重大亞馬遜網路服務事件,導致數千個網站和應用程序癱瘓,從Snapchat和Reddit到企業每天依賴的內部工具。

網路監測公司多年來一直在追蹤互聯網的大規模中斷。他們的數據表明了一些微妙的事情:

  • 每年的重大故障數量並沒有激增;
  • 但每次停機的影響正在加大,因爲更多的服務依賴於同一個中央供應商。

二十年前,如果你僱主的電子郵件服務器宕機,這會毀掉你的一天,但只對你的公司影響。今天,當Cloudflare或AWS遇到問題時,成千上萬的人和企業會同時感受到影響。

此外,人們現在在 X、Reddit 和 TikTok 上直播每一個故障。曾經可能悄無聲息地被視爲“維護問題”的事件,現在看起來和感覺上都像是全球危機。

提供商減少,風險加大

Cloudflare的故障符合我們在AWS、Azure和其他主要基礎設施供應商身上看到的反復模式:

  • 一個小的內部變更 )配置調整,一個軟件更新,一個不當行爲的腳本(與系統中的某些隱藏假設相互作用;
  • 錯誤處理沒有足夠早地捕捉到它;
  • 自動化系統加劇了問題,而不是控制它;
  • 事件涉及大量客戶,他們都依賴同一個平台。

我們已經爲速度、成本和全球規模優化了互聯網。獲得這些的最簡單方法是使用少數幾個在各地擁有數據中心和世界級工程團隊的大型提供商。

權衡是集中。當一個地方的互聯網服務提供商出現問題時,一個城鎮就會離線。當Cloudflare出現故障時,整個互聯網似乎都消失了。

科技領袖對崩盤的看法

盡管埃隆·馬斯克沒有直接評論Cloudflare的漏洞,但他多次警告過過度集中化的數字基礎設施,尤其是與X自身的彈性及其向更多自托管系統轉變有關。在2023-2025年期間,他常常指出,依賴單一供應商來運行互聯網的大部分是“單點故障問題”,這是他對AWS、蘋果、谷歌、Cloudflare式層以及甚至移動運營商的批評。

Cloudflare 的首席技術官對此次故障做出了最強烈和最明確的反應。Knecht 公開道歉,並表示這一事件是“不可接受的”,因爲有如此多的組織和用戶依賴於 Cloudflare 的基礎設施。他還強調,這次事件的原因不是攻擊,而是一個配置錯誤引發的連鎖故障,他將此描述爲未來必須優先防止的問題。

亞馬遜網路服務的首席傳播官傑夫·巴爾沒有提及Cloudflare的故障,但他經常討論AWS的故障以及全球規模故障背後的整體模式。他長期以來傳達的信息是:系統越互聯,流程越自動化,級聯錯誤的風險就越大。

最後,Cloudflare的首席執行官Matthew Prince發聲了。他多年來一直在談論互聯網脆弱的架構,特別是那些人們在它們崩潰之前不會注意到的部分。他經常辯稱,網路的核心健康依賴於韌性,而不是完美。

他重復了以下主題:

  • 最大的威脅是內部配置錯誤,而不是攻擊者;
  • 冗餘必須融入每一層;
  • 互聯網是由“驚人的膠帶數量”連接在一起的。

在此次故障的早期後果中,他並沒有發表長篇公共聲明,但他過去採訪中的主題直接適用。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)