Quét để tải ứng dụng Gate
qrCode
Thêm tùy chọn tải xuống
Không cần nhắc lại hôm nay

Cách Toàn Bộ Internet Biến Mất Qua Đêm

Tóm tắt

Một lỗi cấu hình tại Cloudflare vào ngày 18 tháng 11 đã gây ra một cuộc khủng hoảng dây chuyền, tạm thời làm gián đoạn các dịch vụ lớn như X, ChatGPT, Spotify và Uber trên toàn cầu.

Cách Toàn Bộ Internet Biến Mất Qua Đêm

Hãy tưởng tượng điều này: bạn tỉnh dậy, cầm điện thoại và chạm vào các biểu tượng quen thuộc. X không thể tải được. ChatGPT không trả lời câu hỏi của bạn. YouTube không hiển thị video của bạn. Ngay cả Downdetector, trang web mà bạn thường xuyên sử dụng để kiểm tra xem mọi thứ có bị hỏng hay không, cũng… hỏng.

Trong vài giờ vào ngày 18 tháng 11, đó là thực tế đối với hàng triệu người trên toàn thế giới. Một sự cố lớn tại Cloudflare, một trong những công ty cơ sở hạ tầng chính của internet hiện đại, đã làm ngừng hoạt động hoặc suy giảm một loạt dịch vụ, bao gồm X, ChatGPT, Spotify, Uber, Canva, League of Legends và nhiều hơn nữa.

Cảm giác như “toàn bộ internet” đã biến mất. Trên thực tế, đó là một điều vừa nhỏ hơn vừa đáng sợ hơn: một sự cố duy nhất trong hệ thống của một công ty lan ra trên một phần lớn của web.

Điều Gì Thực Sự Đã Sai Lầm Tại Cloudflare

Vấn đề bắt đầu vào sáng thứ Ba, ( ngày 18 tháng 11 năm 1928374656574839201 theo giờ Mỹ. Khoảng 6:20 sáng theo giờ ET, Cloudflare đã thấy một sự gia tăng lưu lượng truy cập bất thường đi qua một trong những hệ thống của mình. Chỉ vài phút sau, các trang web phụ thuộc vào Cloudflare bắt đầu hiển thị trang “lỗi máy chủ nội bộ” và bị timeout cho người dùng trên toàn cầu.

Khi các báo cáo sự cố chất đống trên Downdetector và mạng xã hội, Cloudflare đã đăng rằng họ “biết về, và đang điều tra” một vấn đề ảnh hưởng đến nhiều khách hàng. Các kỹ sư cuối cùng đã xác định được nguyên nhân và đưa ra một bản sửa lỗi, với lưu lượng truy cập dần trở lại bình thường khoảng ba giờ sau khi sự cố bắt đầu.

Công ty nhấn mạnh một điểm chính: không có dấu hiệu của một cuộc tấn công mạng. Đây không phải là DDoS, một sự cố ransomware, hoặc một tác nhân nhà nước. Đó là một sự cố kỹ thuật nội bộ. Tuy nhiên, đối với người dùng, nguyên nhân không quan trọng. Trải nghiệm của họ rất đơn giản: internet đã ngừng hoạt động.

Cloudflare làm gì ) và tại sao bạn chưa bao giờ nghe về nó (

Hầu hết mọi người không bao giờ truy cập vào cloudflare.com một cách có chủ đích, nhưng họ chạm vào mạng lưới của nó mỗi ngày. Cloudflare nằm ở giữa “con đường” internet giữa bạn và các trang web bạn sử dụng. Nói một cách đơn giản, Cloudflare:

  • Tăng tốc độ truy cập các trang web bằng cách lưu trữ nội dung và định tuyến lưu lượng hiệu quả )mạng phân phối nội dung, hoặc CDN(;
  • Bảo vệ họ khỏi các cuộc tấn công DDoS và bot độc hại;
  • Phân loại lưu lượng để quyết định cái gì trông an toàn và cái gì không.

Công ty cho biết họ xử lý lưu lượng cho khoảng một phần năm tất cả các trang web trên toàn thế giới. Họ cũng xử lý một phần lớn các yêu cầu HTTP mỗi giây, một cách lặng lẽ đóng vai trò như một nhân viên bảo vệ và cảnh sát giao thông cho những phần lớn của web.

Cái quy mô đó thật tuyệt khi mọi thứ hoạt động. Khi không, toàn bộ internet có thể đột nhiên cảm thấy mong manh.

Tệp Nhỏ Gây Ra Sự Cố

Bài viết tổng kết của Cloudflare kể một câu chuyện khá tầm thường. Một tệp cấu hình )basically a set of rules( được hệ thống quản lý bot và mối đe dọa của họ tạo ra tự động. Theo thời gian, tệp đó đã lớn hơn mức mà các kỹ sư mong đợi.

Vào một thời điểm nào đó, nó đã vượt qua một giới hạn cứng trong phần mềm chịu trách nhiệm xử lý lưu lượng cho một số dịch vụ Cloudflare. Do một lỗi tiềm ẩn trong mã đó, hệ thống không thất bại một cách nhẹ nhàng. Thay vào đó, tệp quá lớn đã kích hoạt một sự cố trong một thành phần xử lý lưu lượng cốt lõi.

Từ đó, mọi thứ đã leo thang:

  • Tính năng quản lý bot đã cố gắng áp dụng cấu hình mới, quá lớn;
  • Quá trình đã bị lỗi liên tục thay vì từ chối tệp;
  • Sự cố đó đã lan rộng đến nhiều dịch vụ phụ thuộc vào cùng một phần mềm;
  • Khi nhiều nút bị lỗi, một phần lớn mạng lưới của Cloudflare bắt đầu trả về lỗi thay vì các trang web.

Giám đốc công nghệ của Cloudflare, Dane Knecht, gọi sự cố ngừng hoạt động là “không thể chấp nhận” và nói rằng công ty đã “thất bại” với khách hàng của mình và toàn bộ internet, hứa hẹn sẽ có những thay đổi để một lỗi cấu hình đơn lẻ không thể gây ra phản ứng dây chuyền tương tự nữa.

Liệu sự cố có đang tồi tệ hơn, hay chỉ ngày càng ồn ào hơn?

Nếu bạn cảm thấy những sự cố này xảy ra thường xuyên hơn, bạn không phải là người duy nhất. Sự cố Cloudflare này xảy ra chỉ vài tuần sau một sự cố lớn của Amazon Web Services đã khiến hàng nghìn trang web và ứng dụng bị tê liệt, từ Snapchat và Reddit đến các công cụ nội bộ mà các doanh nghiệp dựa vào hàng ngày.

Các công ty giám sát mạng đã theo dõi các sự cố quy mô lớn trên toàn internet trong nhiều năm. Dữ liệu của họ gợi ý điều gì đó tinh tế:

  • Số lượng các sự cố lớn mỗi năm không tăng vọt;
  • Nhưng tác động của mỗi sự cố đang tăng lên, vì ngày càng nhiều dịch vụ phụ thuộc vào những nhà cung cấp trung tâm giống nhau.

Hai mươi năm trước, nếu máy chủ email của nhà tuyển dụng bạn gặp sự cố, điều đó sẽ làm hỏng ngày của bạn, nhưng chỉ đối với công ty của bạn. Ngày nay, khi Cloudflare hoặc AWS gặp trục trặc, hàng triệu người và doanh nghiệp sẽ cảm nhận điều đó ngay lập tức.

Hơn nữa, mọi người hiện nay phát sóng mọi sự cố trên X, Reddit và TikTok. Những sự cố mà trước đây có thể đã lặng lẽ trôi qua như “vấn đề bảo trì” giờ đây trông và cảm giác như những cuộc khủng hoảng toàn cầu.

Ít nhà cung cấp, rủi ro lớn hơn

Sự cố Cloudflare phù hợp với một mẫu lặp lại mà chúng tôi đã thấy với AWS, Azure và các nhà cung cấp hạ tầng lớn khác:

  • Một thay đổi nội bộ nhỏ ) một điều chỉnh cấu hình, một bản cập nhật phần mềm, một kịch bản hoạt động không đúng ( tương tác với một giả định ẩn nào đó trong hệ thống;
  • Xử lý lỗi không bắt kịp sớm đủ;
  • Các hệ thống tự động khuếch đại vấn đề thay vì kiềm chế nó;
  • Sự cố lan rộng đến một số lượng lớn khách hàng, những người đều phụ thuộc vào cùng một nền tảng.

Chúng tôi đã tối ưu hóa internet cho tốc độ, chi phí và quy mô toàn cầu. Cách dễ nhất để đạt được điều đó là sử dụng một vài nhà cung cấp lớn với các trung tâm dữ liệu ở khắp nơi và đội ngũ kỹ sư hàng đầu thế giới.

Sự đánh đổi là sự tập trung. Khi một nhà cung cấp dịch vụ Internet địa phương gặp sự cố, cả một thị trấn sẽ mất kết nối. Khi Cloudflare gặp trục trặc, có vẻ như toàn bộ internet đã biến mất.

Những Lãnh Đạo Công Nghệ Nói Gì Về Sự Sụp Đổ

Mặc dù Elon Musk không bình luận trực tiếp về lỗi Cloudflare, nhưng ông đã nhiều lần cảnh báo về hạ tầng kỹ thuật số quá tập trung, đặc biệt là liên quan đến khả năng phục hồi của X và sự chuyển hướng của nó sang các hệ thống tự lưu trữ hơn. Trong giai đoạn 2023-2025, ông thường chỉ ra rằng việc phụ thuộc vào một nhà cung cấp để vận hành các phần lớn của internet là “một vấn đề điểm thất bại duy nhất”, một chỉ trích mà ông đã áp dụng cho AWS, Apple, Google, các lớp kiểu Cloudflare, và thậm chí cả các nhà mạng di động.

CTO của Cloudflare đã đưa ra phản ứng mạnh mẽ và rõ ràng nhất về sự cố này. Knecht đã công khai xin lỗi và cho biết sự cố là “không thể chấp nhận” vì có rất nhiều tổ chức và người dùng phụ thuộc vào hạ tầng của Cloudflare. Ông cũng nhấn mạnh rằng nguyên nhân không phải là một cuộc tấn công, mà là một lỗi cấu hình đã kích hoạt một sự cố dây chuyền, điều mà ông mô tả là ưu tiên hàng đầu để ngăn chặn trong tương lai.

Jeff Barr, Giám đốc Truyền thông của Amazon Web Services, không đề cập đến sự cố Cloudflare, nhưng ông thường thảo luận về các sự cố của AWS và mô hình chung phía sau những thất bại quy mô toàn cầu. Thông điệp lâu dài của ông: hệ thống càng liên kết chặt chẽ, và các quy trình càng tự động hóa, thì rủi ro gặp phải các lỗi dây chuyền càng lớn.

Cuối cùng, Giám đốc điều hành của Cloudflare, Matthew Prince, đã lên tiếng. Ông đã nói trong nhiều năm về kiến trúc mong manh của internet, đặc biệt là những phần mà không ai chú ý cho đến khi chúng bị hỏng. Ông thường lập luận rằng sức khỏe cốt lõi của web phụ thuộc vào khả năng chịu đựng, chứ không phải sự hoàn hảo.

Ông ấy đã lặp lại các chủ đề như:

  • Các mối đe dọa lớn nhất là do cấu hình sai bên trong, không phải do kẻ tấn công;
  • Tính dư thừa phải được tích hợp vào mọi lớp;
  • Internet được giữ lại bằng “một lượng băng dính đáng kinh ngạc”.

Ông không đưa ra một tuyên bố công khai dài trong thời gian đầu sau sự cố này, nhưng các chủ đề trong những cuộc phỏng vấn trước đây của ông hoàn toàn phù hợp.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim