Facebook lý giải nguyên nhân sự cố toàn cầu rạng sáng 5-10-2021
Facebook vừa đưa ra những lý giải đầu tiên về sự cố khiến toàn bộ các nền tảng của mạng xã hội lớn nhất thế giới này ngưng hoạt động trên toàn cầu vào rạng sáng 5-10.
Bên trong một trung tâm dữ liệu của Facebook.
Theo Phó Chủ tịch phụ trách cơ sở hạ tầng Facebook Santosh Janardhan, sự cố khởi đầu từ một hoạt động bảo trì định kỳ. Các kỹ sư của Facebook trước đó đã nhận được mệnh lệnh thực hiện việc đánh giá tính khả dụng của hệ thống mạng cốt yếu (backbone network) – có chức năng kết nối tất cả các hệ thống điện toán khác của Facebook.
Tuy nhiên, tác vụ này đã vô tình ngắt toàn bộ các kết nối. Một lỗi khác cũng khiến hệ thống kiểm tra quy trình nội bộ của Facebook không thể ngăn chặn sai sót này xảy ra. Lỗi nhỏ dẫn tới sự cố lớn khi các máy chủ phân giải tên miền (DNS: Domain Name System) – có chức năng hỗ trợ định danh các máy tính trên mạng – của Facebook không thể kết nối với các trung tâm dữ liệu chính của mạng xã hội này.
Khi điều này xảy ra, các máy chủ nói trên sẽ dừng việc cung cấp thông tin định tuyến giao thức cổng truy cập (BGP) – dữ liệu mà mọi thiết bị trên mạng internet đều cần để kết nối với máy chủ dữ liệu. Hậu quả là, toàn bộ “phần còn lại” của mạng internet không thể tìm thấy các máy chủ của Facebook, dẫn tới việc truy cập trở nên bất khả thi.
Tình hình càng trở nên tệ hại hơn khi hệ thống định danh bị vô hiệu hóa, bởi các kỹ sư của Facebook không thể truy cập vào những máy chủ mà họ cần phải sửa chữa. Chức năng DNS biến mất cũng kéo theo hàng loạt công cụ nội bộ phục vụ việc phân tích và xử lý sự cố mạng trong điều kiện thông thường. Điều này buộc Facebook phải điều các nhân viên kỹ thuật tới từng trung tâm dữ liệu của mình. Đây là tác vụ rất mất thời gian do hệ thống an ninh dày đặc tại các địa điểm này.
“Bước được vào các trung tâm dữ liệu đã khó, sửa chữa chúng còn khó hơn”, ông Janardhan cho biết. Phần cứng và các bộ định tuyến (router) trong các trung tâm dữ liệu của Facebook được thiết kế phức tạp, đồng thời tích hợp dày đặc các lớp bảo mật, khiến việc truy cập và chỉnh sửa trở nên khó khăn và mất nhiều thời gian kể cả khi các kỹ sư đã đứng ngay cạnh chúng.
Thời gian khắc phục sự cố tiếp tục bị kéo dài sau khi các kết nối mạng cốt yếu được khôi phục, bởi nguyên tắc cơ bản của tiến trình khởi động các hệ thống máy tính phức tạp là kích hoạt lần lượt để tránh sự cố diễn biến theo hướng nghiêm trọng hơn. Tuy nhiên, sau cùng, các kỹ sư của Facebook đã giải quyết được vấn đề vào sáng 5-10, khôi phục toàn bộ hoạt động của Facebook, Instagram, WhatsApp và nhiều dịch vụ khác.
“Mỗi lần thất bại là một cơ hội để học hỏi và trở nên tốt hơn, và có rất nhiều điều mà chúng ta có thể học hỏi từ rắc rối này. Sau mỗi sự cố phát sinh, dù nhỏ hay lớn, chúng tôi đều thực hiện một quá trình xem xét toàn diện để hiểu cách chúng tôi có thể làm cho hệ thống của mình linh hoạt hơn. Trong sự cố lần này cũng không ngoại lệ”, ông Janardhan chia sẻ.