Amazon xác định nguyên nhân sự cố khiến mạng Internet toàn cầu tê liệt nhiều giờ
Sáng 21/10 (theo giờ Việt Nam), Tập đoàn Amazon thông báo đã khôi phục hoàn toàn các dịch vụ điện toán đám mây (AWS) sau sự cố kỹ thuật nghiêm trọng khiến hàng loạt nền tảng Internet lớn trên toàn cầu bị gián đoạn trong nhiều giờ.
Nguyên nhân được xác định là trục trặc trong hệ thống giám sát tình trạng của bộ cân bằng tải mạng (network load balancer) tại một trung tâm dữ liệu ở Mỹ.
Theo thông báo, Amazon Web Services (AWS) phát hiện sự cố vào lúc 07h11 ngày 20/10 theo giờ GMT (tức 14h11 cùng ngày, theo giờ Việt Nam) khi các dịch vụ ghi nhận tỷ lệ lỗi truy cập tăng bất thường. Bộ phận kỹ thuật xác định lỗi xuất phát từ một phân hệ nội bộ chịu trách nhiệm theo dõi “sức khỏe” của các bộ cân bằng tải mạng (load balancer health subsystem). Sự cố này khiến hệ thống DNS không thể định tuyến đúng các yêu cầu truy cập tới dịch vụ cơ sở dữ liệu DynamoDB, gây ảnh hưởng dây chuyền tới hàng nghìn ứng dụng phụ thuộc vào AWS.
Amazon cho biết sự cố xảy ra tại trung tâm dữ liệu US-EAST-1 ở bang Virginia, khu vực lớn và lâu đời nhất trong mạng lưới AWS, vốn từng gây ra những vụ gián đoạn lớn vào năm 2020 và 2021. Các kỹ sư đã áp dụng biện pháp khắc phục trong vài giờ, giúp hệ thống trở lại “mức hoạt động trước sự cố” vào chiều muộn 20/10, song vẫn phải mất thêm thời gian xử lý lượng dữ liệu tồn đọng.
Sự cố khiến hàng loạt dịch vụ Internet phổ biến như Snapchat, Reddit, Zoom, Venmo, Duolingo, Airbnb, Signal, WhatsApp và trang thương mại điện tử Amazon.com tạm thời ngừng hoạt động. Một số ngân hàng như Lloyd’s và Bank of Scotland, cùng các website của Chính phủ Anh, cũng bị gián đoạn. Công ty giám sát trực tuyến Downdetector ghi nhận hơn 4 triệu báo cáo lỗi từ người dùng trên toàn cầu.
Các chuyên gia an ninh mạng đánh giá sự cố này là vụ gián đoạn mạng lớn nhất kể từ “thảm họa CrowdStrike” năm 2024, cho thấy mức độ phụ thuộc sâu sắc của nền kinh tế số toàn cầu vào hạ tầng của một số ít nhà cung cấp dịch vụ đám mây.
Giáo sư Ken Birman thuộc Đại học Cornell (Mỹ) nhận xét: “Khi các doanh nghiệp bỏ qua khâu xây dựng dự phòng để tiết kiệm chi phí, họ sẽ dễ tổn thương trước những sự cố kiểu này. AWS có các công cụ giúp tăng khả năng chịu lỗi, nhưng không phải mọi công ty đều áp dụng”.
Theo Amazon, các dịch vụ như AWS Config, Redshift và Connect vẫn đang xử lý lượng yêu cầu còn tồn đọng, song hệ thống lõi đã hoạt động ổn định. Vụ việc được xem là lời cảnh báo về sự cần thiết phải tăng cường phân tán rủi ro và xây dựng hạ tầng Internet có khả năng phục hồi cao hơn trong bối cảnh số hóa toàn cầu ngày càng sâu rộng.