Nvidia chuyển hướng sang chip AI suy luận tốc độ cao

CEO của Nvidia Jensen Huang dự kiến sẽ ra mắt sản phẩm mới tại hội nghị công nghệ GTC tuần tới, khi chi tiêu AI chuyển từ huấn luyện sang vận hành mô hình.

Theo đó, chip AI mới được phát triển nhằm tăng tốc phản hồi của các mô hình trí tuệ nhân tạo, đánh dấu sự thay đổi so với chiến lược lâu nay khi sử dụng cùng một bộ xử lý cho nhiều nhiệm vụ khác nhau.

CEO Nvidia Jensen Huang tại sự kiện GTC năm 2024. Nguồn: Nvidia

CEO Nvidia Jensen Huang tại sự kiện GTC năm 2024. Nguồn: Nvidia

Theo các nguồn tin am hiểu kế hoạch của công ty trước thềm hội nghị nhà phát triển GTC diễn ra tuần tới, Giám đốc điều hành Jensen Huang dự kiến sẽ công bố một con chip tập trung vào “inference” - tức giai đoạn chạy mô hình AI để tạo phản hồi thay vì huấn luyện mô hình.

Đây sẽ là sản phẩm mới đầu tiên sau thương vụ trị giá khoảng 20 tỷ USD được công bố vào tháng 12 nhằm chiêu mộ các nhà sáng lập của Groq, một start-up phát triển LPU (Language Processing Unit – chip xử lý ngôn ngữ cho AI) được tối ưu cho việc trả lời nhanh các truy vấn AI phức tạp.

Ba tháng sau thương vụ này, Nvidia dự kiến sẽ giới thiệu một LPU dựa trên công nghệ của Groq để hoạt động song song với bộ xử lý đồ họa thế hệ mới Vera Rubin. Đây là một phần trong dòng sản phẩm mới nhằm đối phó với các đối thủ đang nổi lên và đáp ứng các ứng dụng AI ngày càng đa dạng.

Động thái này diễn ra khi công ty giá trị nhất thế giới đang đối mặt với áp lực cạnh tranh từ các start-up cũng như các khách hàng lớn như Google, vốn đang phát triển chip AI riêng. Tuần này, Meta cũng công bố một dòng bốn bộ xử lý mới tập trung vào tác vụ inference.

“Một giai đoạn thú vị đang mở ra, khi thị trường không còn hoàn toàn do Nvidia thống trị,” một nhà đầu tư mạo hiểm tại Thung lũng Silicon nhận định.

Trong ba năm qua, Nvidia đã đạt mức vốn hóa khoảng 4.500 tỷ USD, phần lớn nhờ các GPU của hãng trở thành nền tảng cốt lõi của ngành AI tạo sinh, dùng để huấn luyện những mô hình đứng sau các dịch vụ như ChatGPT của OpenAI.

Jensen Huang từng cho rằng một hệ thống GPU duy nhất có thể đảm nhiệm cả việc huấn luyện mô hình lẫn vận hành các ứng dụng như chatbot hay công cụ lập trình. Các tập đoàn công nghệ lớn đã chi hàng trăm tỷ USD triển khai những hệ thống này, dù đồng thời cũng đầu tư phát triển các loại chip AI chuyên biệt.

Tuy nhiên, sự phát triển nhanh chóng của các công cụ AI phức tạp hơn, chẳng hạn các hệ thống lập trình tự động “agentic”, đang buộc Nvidia phải điều chỉnh quan điểm rằng một GPU có thể xử lý mọi loại khối lượng công việc.

Theo các nguồn tin, thương vụ với Groq trị giá khoảng 20 tỷ USD là một trong những giao dịch lớn nhất trong lịch sử 33 năm của Nvidia. Thỏa thuận bao gồm việc cấp phép công nghệ và tuyển dụng nhiều nhân sự chủ chốt, trong đó có nhà sáng lập Groq và cựu lãnh đạo chip của Google, Jonathan Ross.

Trước đây, Groq - công ty từng hợp tác với Samsung để sản xuất chip quảng bá rằng, các LPU của họ có thể xử lý tác vụ inference nhanh và hiệu quả hơn GPU của Nvidia.

Các hệ thống chủ lực của Nvidia nhưBlackwell và Rubin hiện dựa vào bộ nhớ băng thông cao (HBM) để xử lý khối lượng dữ liệu khổng lồ của các mô hình AI.

Tuy nhiên, HBM có chi phí rất cao và ngày càng khan hiếm khi các nhà sản xuất bộ nhớ như SK Hynix và Micron gặp khó khăn trong việc đáp ứng nhu cầu bùng nổ từ ngành AI.

Theo các nguồn tin, dòng chip mới theo hướng Groq sẽ sử dụng SRAM (Static Random Access Memory - bộ nhớ tốc độ cao) thay vì DRAM dùng trong HBM. SRAM dễ tiếp cận hơn và phù hợp cho các tác vụ suy luận và “lập luận” của AI.

Các nhà phân tích của Bank of America ước tính khi thị trường trung tâm dữ liệu AI đạt quy mô khoảng 1.200 tỷ USD vào năm 2030, các tác vụ inference sẽ chiếm khoảng 75% tổng chi tiêu, so với khoảng 50% vào năm ngoái.

Trong một báo cáo tuần này, họ cho rằng sự kiện lớn sắp tới của Nvidia có thể công bố một “danh mục AI mở rộng”, bao gồm con chip dựa trên SRAM phát triển từ công nghệ của Groq.

Ngoài ra, các chip inference có ưu điểm là có thể triển khai nhanh và dễ dàng hơn trong các trung tâm dữ liệu hiện có, theo June Paik, Giám đốc điều hành của FuriosaAI - một đối thủ của Nvidia.

“Rất nhiều doanh nghiệp muốn chạy inference ngay trên các trung tâm dữ liệu hiện có, nhưng phần lớn cơ sở hạ tầng hiện nay không thể hỗ trợ các GPU làm mát bằng chất lỏng thế hệ mới,” Paik nói.

“Trung tâm dữ liệu trong tương lai sẽ không còn là một thế giới ‘một giải pháp cho tất cả’,” Ben Bajarin, nhà phân tích công nghệ tại Creative Strategies, nhận định.

Ngọc Lâm

Nguồn Hà Nội Mới: https://hanoimoi.vn/nvidia-chuyen-huong-sang-chip-ai-suy-luan-toc-do-cao-738252.html