Khi Internet 'đổ bệnh': Lời cảnh tỉnh từ sự cố Cloudflare
Liên tiếp những sự cố sập mạng diện rộng gần đây, điển hình là việc Cloudflare 'ngừng thở' trong ít giờ, đang gióng lên một hồi chuông cảnh báo về mức độ phụ thuộc đáng báo động của toàn bộ hạ tầng Internet vào một số ít nhà cung cấp dịch vụ khổng lồ.

Cloudflare - công ty lớn nhất mà bạn có thể chưa từng nghe đến cho đến khi xảy ra sự cố. Ảnh chụp màn hình
Sự cố ngừng hoạt động nghiêm trọng của Cloudflare làm tê liệt hàng loạt trang web toàn cầu: Từ X đến ChatGPT đều chịu ảnh hưởng
Hàng loạt dịch vụ trực tuyến lớn, bao gồm X (trước đây là Twitter), ChatGPT và thậm chí cả trang theo dõi sự cố Downdetector đã bất ngờ ngừng hoạt động vào hôm qua do một sự cố kỹ thuật nghiêm trọng tại Cloudflare - một nhà cung cấp dịch vụ mạng và bảo mật internet hàng đầu thế giới.
Theo thông tin từ Cloudflare, nguyên nhân chính của sự cố bắt nguồn từ một "tệp cấu hình được tạo tự động để quản lý lưu lượng truy cập đe dọa". Tệp này đã "vượt quá kích thước dự kiến" và gây ra sự cố trong hệ thống phần mềm xử lý lưu lượng truy cập của một số dịch vụ Cloudflare. Sự cố này đã khiến hàng triệu người dùng trên toàn cầu không thể truy cập các trang web và ứng dụng quen thuộc, gây ra sự gián đoạn nghiêm trọng.
Người dùng ngay lập tức nhận thấy các trang web hiển thị thông báo lỗi như "Vui lòng bỏ chặn challenges.cloudflare.com để tiếp tục", cho thấy sự cố liên quan trực tiếp đến các dịch vụ của Cloudflare.
Bà Jackie Dutton, người phát ngôn của Cloudflare, xác nhận rằng đây không phải là một cuộc tấn công hay hoạt động độc hại, mà là một lỗi kỹ thuật nội bộ.
Ông Dane Knecht, Giám đốc công nghệ của Cloudflare, cũng đã lên tiếng xin lỗi khách hàng và cộng đồng internet trên X. Ông giải thích rằng: "Một lỗi tiềm ẩn trong dịch vụ hỗ trợ khả năng giảm thiểu bot của chúng tôi đã bắt đầu bị sập sau khi chúng tôi thực hiện thay đổi cấu hình thường xuyên".

Một thiết lập truy vấn không tốt trong hệ thống nhằm hạn chế lưu lượng truy cập của bot đã làm sập nhiều phần của Internet trong vài giờ. Hình ảnh: Blog Cloudflare
Cloudflare ngừng hoạt động: Lời cảnh tỉnh về sự tập trung hóa hạ tầng internet
Cloudflare, với vai trò xương sống trong việc phân phối nội dung (CDN), bảo vệ DDoS và quản lý DNS, hiện đang gánh vác khoảng 20% lưu lượng truy cập web toàn cầu. Điều này lý giải vì sao mỗi khi Cloudflare gặp trục trặc, hàng loạt website từ nhỏ đến lớn đồng loạt "sập nguồn", gây ảnh hưởng nghiêm trọng đến hoạt động kinh doanh và trải nghiệm người dùng trên khắp thế giới.

Canva ngừng hoạt động do sự cố Cloudflare. Ảnh chụp màn hình
Ngoài X, ChatGPT và Downdetector, nhiều dịch vụ trực tuyến phổ biến khác cũng bị ảnh hưởng nặng nề bởi sự cố này, bao gồm:
- Tuyển dụng: Indeed
- Mạng xã hội: Grindr
- Vận tải: Uber
- Thiết kế: Canva
- Giải trí: Spotify, League of Legends
- Giao thông công cộng: NJ Transit
- Nền tảng văn học: Archive of Our Own
- Các kênh thông tin kỹ thuật số: Axios, The Information, Politico
Sự cố này một lần nữa cho thấy mức độ phụ thuộc của internet vào một số ít các nhà cung cấp dịch vụ cơ sở hạ tầng lớn như Cloudflare.
Các sự cố liên tiếp cho thấy phần lớn Internet đặt cược vào vài cái tên
Sự cố ngừng hoạt động của Cloudflare xảy ra chưa đầy một tháng sau một loạt các sự cố tương tự tại các nhà cung cấp dịch vụ đám mây lớn khác:
- Amazon Web Services (AWS): Gây ra sự cố cho Fortnite, Alexa, Snapchat và nhiều dịch vụ khác.
- Microsoft Azure: Khiến Xbox phải ngoại tuyến trong nhiều giờ.

Sự cố mất mạng internet lớn thứ ba trong một tháng chỉ là một dấu hiệu nữa cho thấy các trang web cần có kế hoạch dự phòng. Hình ảnh: The Verge
Những sự cố liên tiếp này đã đặt ra câu hỏi về tính ổn định và khả năng phục hồi của cơ sở hạ tầng internet toàn cầu, đồng thời nhấn mạnh tầm quan trọng của việc đa dạng hóa nhà cung cấp dịch vụ và tăng cường các biện pháp dự phòng để giảm thiểu rủi ro khi có sự cố xảy ra. Mehdi Daoudi, CEO và đồng sáng lập của nền tảng giám sát hiệu suất internet Catchpoint, gọi đây là một "lời cảnh báo" mà các công ty không thể bỏ qua.
Daoudi nhận định: "Mọi người đều dồn hết trứng vào một giỏ, rồi bất ngờ khi có vấn đề xảy ra. Các công ty có trách nhiệm đảm bảo họ có đủ nguồn dự phòng và khả năng phục hồi".
Sự ưa chuộng dành cho Cloudflare đến từ tốc độ vượt trội và khả năng bảo mật ấn tượng. Tuy nhiên, chính sự phụ thuộc này lại biến Cloudflare thành một điểm yếu chí mạng của hạ tầng Internet hiện đại.
Tình trạng tương tự này cũng đã diễn ra sau sự cố của AWS ảnh hưởng nặng nề đến ứng dụng nhắn tin bảo mật này. Thể hiện một thực tế đáng lo ngại về mức độ tập trung quyền lực và rủi ro trong ngành công nghệ.
Trong khi Microsoft và AWS thường đổ lỗi cho các vấn đề liên quan đến DNS, Cloudflare lại xác định nguyên nhân sự cố của mình đến từ một yếu tố tưởng chừng như đơn giản: Một tệp cấu hình duy nhất.

Rob T. Lee là Giám đốc AI và Giám đốc Nghiên cứu tại Viện SANS.
Theo Rob Lee, Giám đốc AI và Nghiên cứu tại Viện SANS, tệp cấu hình của Cloudflare đóng vai trò then chốt trong việc điều khiển chính sách bảo mật định tuyến, cân bằng tải và phân phối lưu lượng toàn cầu. Việc tệp này đột ngột tăng kích thước có thể dẫn đến nhiều vấn đề, bao gồm phân tích cú pháp chậm, sự cố bộ nhớ, tranh chấp CPU hoặc lỗi logic trong các hệ thống phụ thuộc.
Những sự cố gần đây nhấn mạnh: Ngay cả khi phụ thuộc vào các nhà cung cấp hạ tầng web lớn, doanh nghiệp và người dùng vẫn cần phương án dự phòng hiệu quả. Chuyên gia Daoudi cảnh báo gián đoạn sẽ tiếp diễn và lan rộng, đặt ra câu hỏi: Doanh nghiệp đã chuẩn bị những gì?
Rõ ràng, phụ thuộc vào một nhà cung cấp duy nhất là rủi ro. Doanh nghiệp cần đầu tư nghiêm túc vào giải pháp dự phòng, đa dạng hóa nhà cung cấp và tăng cường khả năng phục hồi hệ thống. Đây là yêu cầu sống còn để đảm bảo tính ổn định và liên tục của hoạt động kinh doanh trong môi trường Internet phức tạp và dễ tổn thương.














