DeepSeek tiết lộ chi phí rẻ bất ngờ để huấn luyện mô hình AI
Nhà khởi nghiệp trí tuệ nhân tạo (AI) Trung Quốc, DeepSeek cho biết chỉ phải chi 294.000 USD để huấn luyện mô hình R1 của mình, con số thấp hơn nhiều so với các đối thủ Mỹ.
Cập nhật hiếm hoi từ công ty có trụ sở tại Hàng Châu này - ước tính đầu tiên họ công bố về chi phí huấn luyện R1 - xuất hiện trong một bài báo được đánh giá ngang hàng trên tạp chí học thuật Nature, được xuất bản vào hôm thứ Tư.

DeepSeek chỉ phải chi 294.000 USD để huấn luyện mô hình R1, con số thấp hơn nhiều so với các đối thủ Mỹ.
Việc DeepSeek ra mắt những hệ thống AI chi phí thấp hơn vào tháng 1/2025 đã khiến các nhà đầu tư toàn cầu bán tháo cổ phiếu công nghệ, vì lo ngại các mô hình mới có thể đe dọa vị thế thống trị của các ông lớn AI như Nvidia.
Kể từ đó, công ty và nhà sáng lập Lương Văn Phong phần lớn đã biến mất khỏi tầm mắt công chúng, ngoại trừ việc cho ra mắt một vài cập nhật sản phẩm mới. Ví dụ, cuối tháng 5, DeepSeek cho biết thông qua nền tảng phát triển Hugging Face rằng R1-0528 là một phiên bản nâng cấp nhỏ của R1, tuy nhiên đã cải thiện đáng kể độ sâu suy luận và khả năng suy diễn, bao gồm xử lý tốt hơn các tác vụ phức tạp, đưa hiệu suất của nó gần hơn với các mô hình suy luận o3 của OpenAI và Gemini 2.5 Pro của Google.
Bài báo trên Nature, liệt kê ông Lương Văn Phong là một trong những đồng tác giả, cho biết mô hình R1 tập trung vào lý luận của DeepSeek tốn 294.000 USD để huấn luyện và sử dụng 512 chip Nvidia H800. Phiên bản trước của bài báo được công bố vào tháng 1/2025 không chứa thông tin này.
Ông Sam Altman, CEO của gã khổng lồ AI Mỹ OpenAI, từng nói vào năm 2023 rằng việc huấn luyện "mô hình nền tảng" mà ông gọi như vậy tốn "nhiều hơn" 100 triệu USD - dù công ty của ông chưa đưa ra con số chi tiết cho bất kỳ bản phát hành nào.
Chi phí huấn luyện cho các mô hình ngôn ngữ lớn cung cấp năng lượng cho chatbot AI đề cập đến khoản chi từ việc chạy một cụm chip mạnh mẽ trong vài tuần hoặc vài tháng để xử lý lượng văn bản và mã khổng lồ.
Một số tuyên bố của DeepSeek về chi phí phát triển và công nghệ họ sử dụng đã bị các công ty và quan chức Mỹ đặt câu hỏi. Kể từ khi R1 của DeepSeek ra mắt, các gã khổng lồ công nghệ Trung Quốc như Alibaba và Tencent đã phát hành các mô hình được cho là vượt trội hơn DeepSeek.
Các chip H800 mà họ đề cập được Nvidia thiết kế dành riêng cho thị trường Trung Quốc sau khi Mỹ vào tháng 10/2022 cấm công ty này xuất khẩu các chip AI mạnh mẽ hơn như H100 và A100 sang Trung Quốc.
Các quan chức Mỹ nói với truyền thông hồi tháng Sáu rằng DeepSeek có quyền tiếp cận "số lượng lớn" chip H100 được mua sau khi các biện pháp kiểm soát xuất khẩu của Mỹ được thực thi. Nvidia khi đó tiết lộ DeepSeek sử dụng chip H800 được mua hợp pháp, không phải H100.
Trong một tài liệu thông tin bổ sung kèm theo bài báo trên Nature, công ty lần đầu tiên thừa nhận họ sở hữu chip A100 và cho biết đã sử dụng chúng trong các giai đoạn chuẩn bị phát triển.
"Về nghiên cứu của chúng tôi trên DeepSeek-R1, chúng tôi đã sử dụng GPU A100 để chuẩn bị cho các thí nghiệm với mô hình nhỏ hơn", các nhà nghiên cứu viết. Sau giai đoạn đầu tiên này, R1 được huấn luyện tổng cộng 80 giờ trên cụm 512 chip H800.
Truyền thông trước đó đã đưa tin lý do DeepSeek thu hút được những bộ óc sáng giá nhất Trung Quốc là vì họ là một trong số ít công ty nội địa vận hành cụm siêu máy tính A100.