Amazon Web Services phục hồi sau sự cố khiến hàng nghìn ứng dụng và dịch vụ tê liệt

Amazon Web Services dần phục hồi sau sự cố hôm 20.10 khiến hàng nghìn trang web cùng nhiều ứng dụng phổ biến toàn cầu bị tê liệt và làm gián đoạn hoạt động của doanh nghiệp trên toàn cầu.

Vụ việc này được xem là đợt gián đoạn internet lớn nhất kể từ sự cố của CrowdStrike vào tháng 7.2024, từng khiến hệ thống công nghệ tại nhiều bệnh viện, ngân hàng và sân bay bị tê liệt.

Sau khoảng ba giờ gián đoạn, đến 10 giờ GMT (17 giờ chiều giờ Việt Nam), các hệ thống của Amazon Web Services bắt đầu dần khôi phục. Amazon Web Services, đơn vị điện toán đám mây của Amazon, cho biết đang ghi nhận “dấu hiệu phục hồi rõ rệt” ở một số dịch vụ bị ảnh hưởng.

“Hầu hết yêu cầu hiện đã được xử lý thành công. Chúng tôi vẫn đang tiếp tục giải quyết lượng yêu cầu tồn đọng”, Amazon Web Services thông báo trên trang trạng thái hệ thống.

Amazon Web Services cung cấp dịch vụ điện toán, lưu trữ dữ liệu và nền tảng số theo yêu cầu cho doanh nghiệp, chính phủ và cá nhân. Do đó, bất kỳ trục trặc nào trên hệ thống máy chủ của Amazon Web Services đều có thể khiến nhiều trang web và nền tảng phụ thuộc vào hạ tầng của họ bị ngừng hoạt động.

Amazon Web Services hiện là dịch vụ điện toán đám mây số 1 thế giới, có các đối thủ cạnh tranh là Google Cloud và Microsoft Azure.

Khi hãng tin Reuters hỏi về sự cố, Amazon Web Services dẫn đến trang trạng thái chính thức của họ. Amazon chưa đưa ra bình luận.

Kỹ sư phần mềm kiêm chuyên gia an ninh mạng Junade Ali, thành viên Viện Kỹ thuật và Công nghệ Anh (IET), cho rằng sự cố xuất phát từ một hệ thống mạng nội bộ dùng để kiểm soát một sản phẩm cơ sở dữ liệu của Amazon Web Services.

Sự cố khiến hàng nghìn ứng dụng và dịch vụ tê liệt có thể xuất phát từ một hệ thống mạng nội bộ dùng để kiểm soát một sản phẩm cơ sở dữ liệu của Amazon Web Services - Ảnh: Reuters

Sự cố khiến hàng nghìn ứng dụng và dịch vụ tê liệt có thể xuất phát từ một hệ thống mạng nội bộ dùng để kiểm soát một sản phẩm cơ sở dữ liệu của Amazon Web Services - Ảnh: Reuters

Dấu hiệu khôi phục ban đầu

Theo công ty đo tốc độ mạng Ookla - chủ sở hữu trang theo dõi sự cố Downdetector, có hơn 4 triệu người dùng báo lỗi liên quan đến vụ việc liên quan đến Amazon Web Services.

Các vấn đề trên một số ứng dụng lẫn trang web như Snapchat, Roblox, nền tảng phát trực tuyến Max và dịch vụ thanh toán Venmo của PayPal đang dần giảm bớt.

Trên Downdetector, báo cáo lỗi của Snapchat đã giảm còn khoảng 4.000, từ mức đỉnh hơn 22.000, trong khi Roblox giảm còn chưa tới 500 báo cáo, so với mức đỉnh hơn 12.600.

Tuy nhiên, một số dịch vụ vẫn còn bị ảnh hưởng với hàng nghìn báo cáo lỗi.

Các nền tảng khác như dịch vụ tìm kiếm AI (trí tuệ nhân tạo) của Perplexity, sàn giao dịch tiền mã hóa Coinbase, ứng dụng giao dịch Robinhood cũng xác nhận bị gián đoạn do sự cố Amazon Web Services.

Ngay cả các dịch vụ của chính Amazon, gồm cả trang mua sắm, Prime Video và trợ lý ảo Alexa, cũng bị ảnh hưởng song mức độ nghiêm trọng đã giảm.

Một số game trực tuyến như Fortnite của Epic Games, Clash Royale và Clash of Clans cũng gặp sự cố. Ứng dụng gọi xe Lyft, đối thủ của Uber tại Mỹ, cũng bị tê liệt tạm thời.

Trên mạng xã hội X, Meredith Whittaker, Chủ tịch ứng dụng nhắn tin mã hóa Signal, xác nhận nền tảng của bà cũng bị ảnh hưởng. Trong khi Elon Musk cho biết X vẫn hoạt động bình thường.

Sự cố phơi bày rủi ro phụ thuộc vào số ít nhà cung cấp đám mây

Tại Vương quốc Anh, các ngân hàng như Lloyds Bank, Bank of Scotland, cùng các nhà mạng Vodafone và BT, cũng gặp sự cố, theo ghi nhận từ Downdetector. Trang web của Cơ quan Thuế và Hải quan Anh (HMRC) cũng bị ảnh hưởng.

Các chuyên gia nhận định sự cố này cho thấy mức độ phụ thuộc ngày càng lớn vào dịch vụ kỹ thuật số của vài nhà cung cấp đám mây toàn cầu, khiến chỉ một lỗi nhỏ cũng có thể gây ra thiệt hại lớn cho hoạt động kinh doanh và đời sống thường nhật.

“Nguyên nhân chính là các công ty lớn này đều phụ thuộc vào cùng một nhà cung cấp dịch vụ”, ông Nishanth Sastry, Giám đốc Nghiên cứu tại Khoa Khoa học Máy tính thuộc Đại học Surrey (Anh), nói.

Hiện chưa có bằng chứng cho thấy sự cố do cuộc tấn công mạng, nhưng quy mô lan rộng của vụ việc đã làm dấy lên nghi ngờ về điều đó.

“Khi có sự cố như thế này, việc lo ngại đó là tấn công mạng là điều dễ hiểu. Amazon Web Services có quy mô hoạt động rộng lớn và phức tạp, nên bất kỳ trục trặc nào cũng có thể gây ra hậu quả nghiêm trọng”, ông Rafe Pilling, Giám đốc tình báo mối đe dọa tại công ty an ninh mạng Sophos, nhận định.

Sự cố của CrowdStrike khiến hệ thống máy tính cài Windows trên toàn thế giới bị sập

Tháng 7.2024, bản cập nhật phần mềm bảo mật Falcon Sensor lỗi từ hãng an ninh mạng CrowdStrike (Mỹ) khiến hệ thống máy tính cài Windows trên toàn thế giới bị sập.

CrowdStrike là chuyên cung cấp các giải pháp bảo mật dựa trên nền tảng đám mây. Công ty nổi tiếng với phần mềm CrowdStrike Falcon, nền tảng phát hiện và phản ứng điểm cuối (EDR - Endpoint Detection and Response), giúp các tổ chức phát hiện, ngăn chặn và phản ứng nhanh với các cuộc tấn công mạng.

CrowdStrike Falcon giám sát hoạt động của các thiết bị trong hệ thống, sử dụng AI và học máy để phát hiện hành vi đáng ngờ, từ đó cảnh báo hoặc tự động ngăn chặn.

Falcon Sensor là thành phần cốt lõi của nền tảng bảo mật CrowdStrike Falcon, hoạt động như một tác nhân được cài đặt trên thiết bị đầu cuối (endpoint) như máy tính cá nhân, máy chủ hoặc máy ảo chạy Windows, Linux hoặc macOS.

Học máy là lĩnh vực của AI tập trung vào việc nghiên cứu và phát triển các kỹ thuật cho phép hệ thống máy tính "học" tự động từ dữ liệu, mà không cần phải được lập trình rõ ràng cho từng tác vụ cụ thể.

Thay vì con người viết từng dòng lệnh chi tiết để máy tính thực hiện một nhiệm vụ nào đó, học máy cho phép máy tính tự động tìm ra các quy luật, mẫu hình và mối quan hệ từ dữ liệu mà chúng được cung cấp. Nhờ đó, máy tính có thể đưa ra dự đoán, đưa ra quyết định hoặc thực hiện các tác vụ một cách thông minh, và quan trọng hơn là cải thiện hiệu suất của mình theo thời gian khi có thêm dữ liệu hoặc kinh nghiệm.

Dưới đây là tóm tắt về cách sự cố này đã xảy ra:

Nguyên nhân gốc rễ

Bản cập nhật phần mềm bị lỗi: Vào ngày 19.7.2024 (theo giờ Việt Nam), CrowdStrike đã phát hành một bản cập nhật cho phần mềm bảo mật Falcon Sensor.

Lỗi trong trình xác thực nội dung: Bản cập nhật này chứa một file cấu hình (được gọi là Channel File 291) có dữ liệu nội dung bị lỗi. Đáng lẽ file này phải bị chặn bởi quy trình kiểm tra nội bộ CrowdStrike, nhưng do một lỗi trong phần mềm xác thực nội dung, nó đã được chấp thuận và triển khai.

Tương tác với nhân Windows: Falcon Sensor được tích hợp sâu vào nhân hệ điều hành Windows để theo dõi và ngăn chặn các mối đe dọa. Khi file cấu hình lỗi này được tải xuống và xử lý bởi Falcon Sensor thì đã gây ra xung đột nghiêm trọng với nhân Windows, dẫn đến việc hệ thống bị sập.

Hậu quả

Hàng triệu máy tính Windows trên toàn thế giới đã gặp phải lỗi "màn hình xanh chết chóc" và liên tục khởi động lại, khiến chúng không thể sử dụng được. Microsoft ước tính khoảng 8,5 triệu máy tính Windows bị ảnh hưởng.

Sự cố đã gây ra gián đoạn nghiêm trọng cho nhiều ngành công nghiệp và dịch vụ thiết yếu trên khắp thế giới.

- Hàng không: Nhiều sân bay và hãng hàng không gặp tình trạng hoãn, hủy chuyến bay do hệ thống điều phối bị tê liệt (ví dụ Delta Airlines, sân bay Singapore Changi, sân bay ở Sydney…).

- Ngân hàng và tài chính: Các dịch vụ ngân hàng, giao dịch chứng khoán bị ảnh hưởng. Trong đó, Sở giao dịch chứng khoán London phải trì hoãn hoạt động.

- Truyền thông: Các kênh truyền hình như Sky News (Anh), ABC (Úc) không thể phát sóng trực tiếp.

- Tesla phải ngừng sản xuất tại một số nhà máy.

- Y tế, chính phủ, và các doanh nghiệp khác: Nhiều tổ chức, cơ quan chính phủ và doanh nghiệp lớn nhỏ trên toàn cầu bị ảnh hưởng, gây ra thiệt hại tài chính ước tính lên đến hàng tỉ USD.

Quá trình khắc phục phức tạp

Dù CrowdStrike đã nhanh chóng xác định nguyên nhân và phát hành bản sửa lỗi, việc khôi phục các hệ thống bị ảnh hưởng mất rất nhiều thời gian và công sức, do nhiều máy tính phải được xử lý thủ công, đôi khi cần khởi động vào chế độ an toàn và xóa các file cụ thể. Các hệ thống sử dụng mã hóa BitLocker của Microsoft còn phức tạp hơn vì yêu cầu khóa khôi phục thủ công.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/amazon-web-services-phuc-hoi-sau-su-co-khien-hang-nghin-ung-dung-va-dich-vu-te-liet-239100.html