Siêu máy tính nhanh nhất thế giới gặp lỗi liên tục, không thể chạy trơn tru trong vòng 1 ngày
GPU tính toán Instinct MI250X của AMD được cho là nguyên nhân khiến siêu máy tính của Mỹ gặp lỗi
Xây dựng siêu máy tính luôn là một thách thức. Việc tạo ra hệ thống cấp độ exascale đầu tiên trong ngành có thể tạo ra những vấn đề lớn đến bất ngờ, đòi hỏi nhiều công việc với phần cứng và phần mềm. Đáng tiếc, điều này lại diễn ra với siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge khi siêu máy tính này liên tục gặp phải lỗi khi hoạt động.
Frontier của ORNL là hệ thống đầu tiên trong ngành được thiết kế để mang đến hiệu năng cao nhất, lên đến 1,685 ExaFLOPS FP64 bằng cách sử dụng bộ xử lý EPYC Trento 64 nhân, các GPU tính toán Instinct MI250X của AMD cũng như liên kết HPE Slingshot với công suất 21MW. HPE đã xây dựng hệ thống này, sử dụng kiến trúc Cray EX được thiết kế cho các ứng dụng mở rộng quy mô, chủ yếu dành cho những siêu máy tính cực nhanh.
Trong khi trên giấy tờ, siêu máy tính Frontier nhưng có vẻ những vấn đề về phần cứng vẫn tiếp tục đeo bám chiếc máy tính máy này. Nó chỉ có thể mang đến hiệu năng khoảng 1 ExaFLOPS FP64 cho các nhà nghiên cứu.
Trong bài phỏng vấn với InsideHPC, Justin Whitt, giám đốc chương trình tại Oak Ridge Leadership Computing Facility (OLCF) cho biết: “Chúng tôi đang giải quyết các vấn đề đối với phần cứng. Bạn sẽ gặp thất bại ở quy mô này. Thời gian trung bình phát sinh sự cố trên hệ thống này là hàng giờ, không phải ngày.”
Tin đồn về các lỗi phần cứng tiềm ẩn của Frontier đã nổi lên trong một thời gian khá dài. Theo thông tin khác từ InsideHPC, một số người tiết lộ, hệ thống đã gặp sự cố với kết nối Slingshot. Ngoài ra, những người khác chỉ ra rằng GPU tính toán Instinct MI250X của AMD không đáng tin cậy như mong đợi. Hãy nhớ rằng phiên bản X, với số lượng bộ xử lý luồng lớn hơn cùng xung nhịp cao hơn, chỉ có sẵn cho một số khách hàng được chọn.
Ông Whitt không xác nhận hệ thống gặp phải bất kỳ vấn đề nào với Instinct hoặc Slingshot, nhưng ông nhấn mạnh cỗ máy gặp phải nhiều vấn đề về phần cứng.
Người đứng đầu OLCF cho biết: “Rất nhiều thách thức tập trung vào những GPU đó, nhưng đó không phải là phần lớn thách thức mà chúng tôi nhận thấy. Tôi không nghĩ rằng tại thời điểm này chúng tôi có nhiều mối quan tâm về các sản phẩm của AMD.”
Cho đến nay, siêu máy tính Frontier của Phòng thí nghiệm Quốc gia Oak Ridge không phải là hệ thống duy nhất sử dụng kiến trúc Cray EX của HPE với liên kết Slingshot, CPU AMD EPYC cũng như GPU tính toán AMD Instinct. Ví dụ, siêu máy tính Lumi của Phần Lan (vốn được trang bị Cray EX, EPYC Milan và những GPU tính toán Instinct MI250X) mang đến hiệu năng cao nhất ở mức 550 PetaFLOPS và chính thức được xếp hạng là siêu máy tính mạnh thứ 3 trên thế giới. Nói chung, hoàn toàn có thể hiểu được khi một cỗ máy sử dụng tổng cộng 60 triệu bộ phận gặp những vấn đề như vậy.
Hiện vẫn chưa rõ liệu siêu máy tính Frontier có thể vận hành theo đúng dự định ban đầu vào năm 2023 hay không, do hiện tại siêu máy tính này vẫn chưa được triển khai chính thức.