Vì sao sự cố gián đoạn internet ngày càng hỗn loạn?

4 giờ trước Gốc

Internet đã trở thành nền tảng trong hầu hết các hoạt động trên toàn cầu. Khi nó bị gián đoạn, mọi thứ đảo lộn.

Amazon Web Services, Microsoft và Google thống trị thị trường đám mây

Hệ thống này rất mong manh. Chỉ một phần nhỏ gặp sự cố cũng có thể gây thiệt hại hàng tỉ USD và làm gián đoạn cuộc sống của hàng triệu người. Năm 2025, các vụ mất kết nối diện rộng diễn ra thường xuyên hơn. Nhiều sự cố xuất phát từ chính các công ty hạ tầng internet lớn.

Một ví dụ rõ ràng là sự cố kéo dài 15 giờ tại trung tâm dữ liệu Amazon hồi tháng 10. Trẻ em ở Anh không vào được Roblox. Nhân viên không thể họp trên Zoom. Kỹ sư ở Ấn Độ phải hủy lịch nghỉ lễ Diwali. Đến giữa tháng 11, Cloudflare lại gặp trục trặc và khiến nhiều trang web ngừng hoạt động, bao gồm cả ChatGPT, hệ thống giao thông New Jersey và mạng xã hội X.

Điều khiến nhiều người thắc mắc là: tại sao một lỗi của một công ty lại làm tê liệt cả một phần lớn internet? Câu trả lời nằm ở cách internet phát triển và cách các doanh nghiệp vận hành hạ tầng hiện nay.

Internet hoạt động như thế nào?

Khi một người ở Anh gõ “google.com”, hàng loạt quá trình phức tạp diễn ra trong vài phần nghìn giây. Mọi thiết bị trên internet đều có địa chỉ IP riêng. Các thiết bị dùng DNS để tìm nhau. Trang web hay ứng dụng chỉ là các gói dữ liệu gồm chữ, hình ảnh và mã.

Thiết bị của người dùng gửi yêu cầu đến hệ thống mạng qua WiFi, 4G hoặc cáp. Yêu cầu đi qua router, dây cáp, công tắc mạng, trung tâm dữ liệu và đôi khi là cáp biển. Cuối cùng, nó đến đúng máy chủ Google. Máy chủ gửi lại dữ liệu theo con đường tương tự.

Chỉ cần một mắt xích gặp vấn đề, toàn bộ hệ thống có thể đứt đoạn. Sự phụ thuộc ngày càng lớn vào điện toán đám mây khiến quy mô của các sự cố lớn hơn trước rất nhiều.

Vì sao sự cố bây giờ gây ảnh hưởng lớn hơn?

Vài thập kỷ trước, các công ty thường lưu trữ dữ liệu trên máy chủ đặt tại chính văn phòng của họ. Người dùng cũng lưu nhạc, ảnh và tài liệu trên máy tính cá nhân. Khi xảy ra sự cố, phạm vi ảnh hưởng rất nhỏ. Mất dữ liệu chỉ gây phiền toái cá nhân, không làm tê liệt dịch vụ toàn cầu.

Điện toán đám mây đã thay đổi mọi thứ. Amazon là công ty đầu tiên nhận ra rằng họ tốn quá nhiều công sức để xử lý hạ tầng và lưu trữ. Họ xây dựng một hệ thống dùng chung. Sau đó họ mở dịch vụ ra thị trường với tên gọi Amazon Web Services (AWS). Microsoft và Google nhanh chóng học theo. Ba công ty này dần chiếm quyền thống trị trong lĩnh vực đám mây.

Ngày nay, phần lớn các trang web và ứng dụng đều chạy trên hàng triệu máy chủ đặt trong các trung tâm dữ liệu khổng lồ. Các trung tâm này được chia theo “vùng”. Mỗi vùng phục vụ một khu vực cụ thể. Nhưng nếu một vùng gặp trục trặc, lượng ảnh hưởng có thể vượt xa khu vực đó. Nhiều công ty còn phụ thuộc vào một vùng duy nhất mà không hề biết.

Sự cố AWS tháng 10 bắt đầu chỉ từ một lỗi trong một dịch vụ cốt lõi. Lỗi này lan rộng và khiến nhiều website trên toàn thế giới ngừng hoạt động.

Các sự cố có thể bắt nguồn từ rất nhiều nguyên nhân: phần mềm lỗi, trung tâm dữ liệu quá nóng hoặc một sợi cáp bị hỏng. Thật đáng ngạc nhiên là internet vẫn hoạt động ổn định phần lớn thời gian.

Vì sao AWS, Microsoft Azure và Google Cloud thống trị thị trường?

Tại Anh, AWS và Azure chiếm hơn 70% thị trường điện toán đám mây. Họ có lợi thế đi trước, có sẵn khách hàng doanh nghiệp và sở hữu nguồn lực tài chính khổng lồ.

Sự thống trị này tạo ra một hệ quả nghiêm trọng: chỉ một sự cố ở một trong ba công ty cũng có thể làm sập hàng loạt dịch vụ trên internet.

Ngoài ra, các “ông lớn” đám mây bị chỉ trích vì khiến các doanh nghiệp khó chuyển sang nhà cung cấp khác. Cấu trúc kỹ thuật của từng nền tảng rất khác nhau, khiến chi phí chuyển đổi rất cao. Các kỹ sư đám mây cũng thường chỉ được đào tạo cho một nhà cung cấp, càng làm tăng rào cản.

Các dịch vụ đám mây lớn nhìn chung rất ổn định. Chúng là mảng kinh doanh tăng trưởng của các công ty công nghệ, nên họ có động lực giữ hệ thống hoạt động trơn tru. Tuy nhiên, vấn đề xuất hiện khi nhiều lớp dịch vụ phụ thuộc lẫn nhau.

Một ví dụ điển hình là CrowdStrike, công ty an ninh mạng không lớn như Microsoft hay Amazon, nhưng lại rất phổ biến. Phần mềm của họ chạy trên hàng triệu máy tính Windows. Tháng 7.2024, một bản cập nhật lỗi được đưa lên đám mây. Chỉ trong vài phút, hàng triệu máy tính đồng loạt gặp “màn hình xanh chết chóc”.

Sự cố không phải do lỗi của AWS hay Azure, nhưng tính đồng thời của cập nhật qua đám mây khiến hậu quả trở nên nghiêm trọng hơn rất nhiều.

Doanh nghiệp có thể làm gì để giảm rủi ro?

Cách tốt nhất để giảm thiệt hại là chuẩn bị trước. Doanh nghiệp có thể trả thêm phí để có hệ thống dự phòng ở một vùng khác. Họ có thể duy trì một số máy chủ nội bộ cho các dịch vụ quan trọng nhất. Họ cần hiểu rõ chuỗi phụ thuộc trong hạ tầng của mình.

Về phía người dùng, không có nhiều lựa chọn khi xảy ra sự cố lớn. Chúng ta chỉ có thể chờ các nhà cung cấp khắc phục. Đôi khi, điều tốt nhất là tạm rời màn hình, ra ngoài và thừa nhận rằng internet, dù mãnh mẽ đến đâu vẫn là một hệ thống cực kỳ phức tạp.

Bùi Tú

Nguồn Một Thế Giới: https://1thegioi.vn/vi-sao-su-co-gian-doan-internet-ngay-cang-hon-loan-241259.html