Khi chip Nvidia không còn khả dụng, Huawei tung bộ xử lý AI mới
Huawei chuẩn bị xuất xưởng hàng loạt chip AI Ascend 910C, một phần trong chiến lược nâng cao vị thế của Huawei thông qua sản xuất…

Huawei là tập đoàn đa quốc gia về thiết bị mạng và viễn thông, thành lập năm 1987 tại Quảng Đông, Trung Quốc.
Huawei đang chuẩn bị tăng cường xuất xưởng bộ vi xử lý trí tuệ nhân tạo Ascend 910C và giao hàng quy mô lớn cho khách Trung Quốc, dự kiến bắt đầu ngay từ tháng tới, theo Tech Wire Asia.
Thời điểm này trùng với loạt hạn chế tiếp cận chip AI cao cấp của Nvidia theo lệnh kiểm soát xuất khẩu từ Hoa Kỳ, buộc doanh nghiệp Trung Quốc phải tìm kiếm lựa chọn thay thế trong nước.
Ascend 910C, do bộ phận bán dẫn HiSilicon (Huawei) nghiên cứu, là phiên bản mở rộng của mẫu 910B trước đó. Mẫu chip sử dụng thiết kế hai chiplet nhằm tăng gấp đôi hiệu suất xử lý và dung lượng bộ nhớ. Theo một số nguồn tin thân cận, 910C được phát triển bằng công cụ thiết kế điện tử (EDA) tiên tiến và hỗ trợ loạt tác vụ AI khác nhau. Một số lô hàng đã bắt đầu xuất xưởng.
LẤY SỐ LƯỢNG BÙ CHẤT LƯỢNG
Chiến lược của Huawei là duy trì sức cạnh tranh, bất chấp mọi hạn chế về năng lực sản xuất, tập trung mở rộng hệ thống quy mô lớn. Do không thể sử dụng công nghệ sản xuất tiên tiến nhất, hãng đã tăng số lượng bộ xử lý trong mỗi hệ thống.
Cách tiếp cận này được áp dụng trong thiết kế CloudMatrix 384 – hệ thống AI quy mô tủ rack gồm 384 bộ xử lý Ascend 910C, chiếm 16 tủ rack với 12 tủ tính toán và 4 tủ mạng, sử dụng 6.912 bộ thu phát quang tuyến tính (LPO) để tạo nên một mạng lưới quang học tốc độ cao.
CloudMatrix 384 cung cấp hiệu suất tính toán dày đặc, khoảng 300 PFLOPs, ở độ chính xác BF16, vượt xa hệ thống GB200 NVL72 của Nvidia vốn đạt khoảng 180 PFLOPs. Hệ thống này cũng có tổng băng thông bộ nhớ cao hơn 2,1 lần và dung lượng bộ nhớ HBM lớn hơn 3,6 lần. Mỗi bộ xử lý 910C tích hợp tám mô-đun bộ nhớ HBM2E và hệ thống hỗ trợ cả khả năng mở rộng ngang và dọc nhờ kiến trúc kết nối quang học.

Bộ vi xử lý trí tuệ nhân tạo Ascend 910C.
ĐÁNH ĐỔI NĂNG LƯỢNG - HIỆU SUẤT
Tuy nhiên, hãng cũng phải đánh đổi để đạt hiệu suất cao. Toàn bộ hệ thống CloudMatrix 384 tiêu thụ khoảng 559 kilowatt điện năng, so với mức 145 kilowatt của hệ thống đối thủ Nvidia. Tính theo hiệu suất năng lượng, hệ thống của Huawei kém hiệu quả hơn khoảng 2,3 lần. Tuy vậy, chi phí điện tại nhiều khu vực Trung Quốc đã giảm trong những năm gần đây, xuống còn khoảng 56 USD/megawatt/giờ, khiến mức tiêu thụ này vẫn có thể chấp nhận được.
Mẫu chip Ascend 910C được thiết kế phục vụ cả huấn luyện và suy luận trên mô hình AI lớn. Mỗi bộ xử lý cung cấp hiệu suất 780 TFLOPs với độ chính xác BF16, vượt qua AMD MI250X (383 TFLOPs) nhưng vẫn xếp sau Nvidia B200, vốn đạt hơn 2,2 PFLOPs.
Huawei tin rằng thiết kế cấp hệ thống và mở rộng quy mô sẽ giúp công ty thu hẹp khoảng cách hiệu suất. Hãng đặt mục tiêu bắt kịp hoặc vượt qua tổng thông lượng xử lý của các đối thủ bằng cách tích hợp thêm chip vào mỗi hệ thống và sử dụng kết nối quang học hoàn toàn. Thiết kế bộ xử lý này loại bỏ khuôn I/O trung tâm, thay vào đó là hai chiplet tính toán được đóng gói cùng nhau.
Kiến trúc này phản ánh xu hướng đang xuất hiện ở nhiều dòng chip cao cấp khác như AMD Instinct MI250X và Nvidia B200. Ascend 910C được sản xuất bằng công nghệ tiến trình thuộc nhóm 7nm. Một số chiplet sản xuất trong nước bởi SMIC, dù tỷ lệ thành phẩm vẫn còn thấp. Một số khác được cho là sản xuất bởi TSMC thông qua thỏa thuận gián tiếp với các bên thứ ba như Sophgo, bất chấp lệnh trừng phạt từ phía Hoa Kỳ.
Chiến lược chuỗi cung ứng của Huawei cũng được áp dụng cho bộ nhớ. Các mô-đun HBM2E sử dụng trong chip Ascend 910C chủ yếu được cung cấp bởi Samsung, nhưng vận chuyển qua bên trung gian như CoAsia và Faraday Technology nhằm đáp ứng quy định kiểm soát xuất khẩu. Các linh kiện được lắp ráp và vận chuyển đến Trung Quốc, nơi tích hợp chồng bộ nhớ vào đơn vị hệ thống đóng gói cuối cùng của Huawei.
Bất chấp sự phức tạp trong chuỗi cung ứng, Huawei đang thu thập đủ tấm wafer để sản xuất hơn một triệu chip Ascend 910C trong giai đoạn 2023 đến 2025. Năng lực sản xuất của SMIC dự kiến sẽ mở rộng, giúp kéo nhiều khâu sản xuất trở lại nội địa.
CloudMatrix 384 của Huawei đại diện cho tham vọng rộng lớn của công ty trong việc duy trì đà phát triển AI Trung Quốc. Dù hiệu suất tổng thể của Huawei kém hơn về mặt tiêu thụ điện năng và băng thông bộ nhớ so với phần cứng của Nvidia, nhưng tính sẵn có và khả năng mở rộng khiến hệ thống này trở thành lựa chọn hấp dẫn cho doanh nghiệp Trung Quốc trong bối cảnh thị trường thiếu hụt phần cứng.
Khi hệ thống Nvidia GB200 NVL72 bị cấm tiếp cận do quy định kiểm soát xuất khẩu, những hệ thống như CloudMatrix 384 trở thành giải pháp thay thế tối ưu cho quá trình huấn luyện mô hình AI tại Trung Quốc.
Trong bối cảnh căng thẳng địa chính trị ảnh hưởng đến ngành bán dẫn toàn cầu, thiết kế hệ thống của Huawei thể hiện sự thích ứng và khả năng chống chịu. Dù chưa thể sánh ngang Nvidia về thông số kỹ thuật, nhưng khoản đầu tư của Huawei vào mở rộng phần cứng, tích hợp công nghệ quang học và điều hướng giới hạn chuỗi cung ứng đã giúp công ty giữ vai trò quan trọng trong hạ tầng AI của Trung Quốc trong tương lai.