DeepSeek chi số tiền khủng để mua hàng vạn GPU Nvidia như nhiều hãng: 'Không có phép màu nào ở đây'
Việc High-Flyer, quỹ đầu cơ đứng sau DeepSeek, chi tiêu mạnh tay vào GPU (bộ xử lý đồ họa) khiến một số người nghi ngờ về chi phí thực sự đào tạo mô hình nguồn mở V3 của công ty khởi nghiệp Trung Quốc, dù vẫn thừa nhận tính đổi mới của họ.
DeepSeek được tách ra vào năm 2023 từ High Flyer-Quant, công ty quản lý quỹ đầu tư. Doanh nhân đứng sau DeepSeek là ông Liang Wenfeng, người sáng lập High Flyer-Quant và DeepSeek, từng nghiên cứu về AI tại Đại học Chiết Giang (Trung Quốc).
Lượng sức mạnh tính toán mà DeepSeek sử dụng để huấn luyện mô hình nguồn mở V3 và R1 đã trở thành chủ đề thu hút sự quan tâm mạnh mẽ từ các chuyên gia trí tuệ nhân tạo (AI) và nhà đầu tư, vì câu trả lời có thể ảnh hưởng lớn đến sự phát triển của công nghệ này trong tương lai.
Trong một bài viết về V3, ra mắt vào tháng 12.2024, DeepSeek tuyên bố rằng quá trình huấn luyện mô hình này chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, chỉ bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.
Cụ thể hơn, DeepSeek cho biết đào tạo V3 bằng khoảng 2.000 chip Nvidia H800. Đây không phải là loại chip hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Một số chuyên gia đã đặt nghi vấn về tuyên bố của DeepSeek.
Chuyên gia Stacy Rasgon của hãng Bernstein và các nhà phân tích khác cho rằng chi phí đào tạo V3 của DeepSeek có thể cao hơn, vì con số 6 triệu USD được công ty này công bố chỉ là chi phí cho sức mạnh tính toán.
Dù vậy, con số này vẫn khác xa so với 250 tỉ USD mà các nhà phân tích ước tính các công ty điện toán đám mây lớn Mỹ sẽ chi tiêu trong năm 2025 cho cơ sở hạ tầng AI.
R1, mô hình lập luận mã nguồn mở của DeepSeek được phát hành vào ngày 20.1, thể hiện năng lực tương đương với các mô hình tiên tiến hơn từ OpenAI, Anthropic và Google, nhưng chi phí đào tạo thấp hơn đáng kể. Tuy nhiên, bài viết của DeepSeek về R1 không đề cập đến chi phí phát triển.
Các mô hình DeepSeek có chi phí thấp và hiệu suất mạnh mẽ làm dấy lên nghi ngờ về sự cần thiết của khoản đầu tư khổng lồ từ các gã khổng lồ công nghệ Mỹ, đặc biệt là vào chip AI đắt đỏ. Điều này đã dẫn đến đợt bán tháo lớn cổ phiếu Nvidia vào tuần trước, khiến vốn hóa hãng chip AI hàng đầu của Mỹ giảm gần 600 tỉ USD chỉ trong một ngày.
Các hồ sơ cho thấy DeepSeek là một trong những đơn vị có nguồn lực mạnh nhất để đào tạo AI. Ngay từ năm 2019, Liang Wenfeng đã chi 200 triệu nhân dân tệ (27,8 triệu USD) để mua 1.100 GPU nhằm đào tạo các thuật toán giao dịch chứng khoán. High-Flyer cho biết trung tâm điện toán của DeepSeek vào thời điểm đó có diện tích tương đương một sân bóng rổ, khoảng 436,6 mét vuông.
Năm 2021, High-Flyer đã chi 1 tỉ nhân dân tệ để phát triển cụm siêu máy tính Fire-Flyer 2, được kỳ vọng đạt công suất 1.550 petaflop, theo trang web của quỹ. Hiệu suất này tương đương với một số siêu máy tính mạnh nhất thế giới.
Petaflop là một đơn vị đo lường hiệu suất tính toán của siêu máy tính, viết tắt của Peta Floating Point Operations Per Second (nghìn nghìn tỉ phép toán dấu phẩy động mỗi giây).
Trong cuộc phỏng vấn với trang tin công nghệ 36Kr (Trung Quốc) vào tháng 5.2023, Liang Wenfeng cho biết High-Flyer đã mua gần 10.000 GPU Nvidia, gồm cả dòng A100 tiên tiến nhất vào thời điểm đó, trước khi Mỹ áp đặt hạn chế xuất khẩu loại chip này sang Trung Quốc.
Một số nhà phân tích xác định rằng việc High-Flyer chi tiêu mạnh vào phần cứng là yếu tố quan trọng giúp DeepSeek trở thành "ngựa ô" trong cuộc đua AI toàn cầu.
Trong một báo cáo, hãng nghiên cứu SemiAnalysis (Mỹ) ước tính rằng tổng chi tiêu phần cứng của DeepSeek “vượt xa mức 500 triệu USD trong suốt lịch sử công ty”, gồm cả chi phí nghiên cứu và phát triển cũng như tổng chi phí sở hữu phần cứng.
Theo SemiAnalysis, tổng chi tiêu vốn cho máy chủ của DeepSeek có thể đã lên đến 1,6 tỉ USD với khoảng 50.000 GPU Nvidia Hopper, gồm cả chi phí vận hành 944 triệu USD cho các cụm tính toán.
Dù vậy, các nhà phân tích lưu ý rằng sự đổi mới của DeepSeek trong lĩnh vực phần mềm đã chứng minh rằng hiệu suất mô hình không tỷ lệ thuận với số tiền mà công ty chi cho GPU đắt tiền.
“Dù có thể tranh luận về chi phí GPU thực của DeepSeek, nhưng yếu tố không thể phủ nhận là kết quả đầu ra của họ. Đây là một bước ngoặt, hỗ trợ các ứng dụng và tác tử AI được xây dựng dựa trên đó. Họ đã thu nhỏ kích thước mô hình AI và với một số sự đổi mới khác, đáng kể giảm chi phí huấn luyện và vận hành”, nhà phân tích Shawn Kim và Duan Liu của tập đoàn tài chính Morgan Stanley (Mỹ) viết trong một báo cáo.
Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.
Tilly Zhang, nhà phân tích tại Gavekal (Hồng Kông), viết trong một ghi chú nghiên cứu riêng rằng với các mô hình mới nhất của DeepSeek, “cuộc đua giành vị thế dẫn đầu trong AI không còn chỉ là về việc ai có quyền tiếp cận chip tốt nhất, mà là ai sử dụng chúng hiệu quả nhất”.
Gavekal là công ty nghiên cứu tài chính và đầu tư quốc tế, chuyên cung cấp phân tích kinh tế, chiến lược đầu tư và quản lý tài sản cho các nhà đầu tư tổ chức, quỹ đầu tư và doanh nghiệp.
Cách tuyển dụng khác biệt, trả lương cao ngất ngưởng
DeepSeek có cách tuyển dụng khác biệt so với nhiều công ty Trung Quốc. Thay vì săn đón nhân tài từ Đài Loan hay Mỹ, DeepSeek tập trung tuyển dụng từ chính Trung Quốc, ưu tiên tìm kiếm các ứng viên có kỹ năng và khả năng giải quyết vấn đề hơn là chỉ dựa vào chứng chỉ chính thức.
Các trường đại học hàng đầu như Đại học Bắc Kinh và Đại học Chiết Giang là mục tiêu chính của hoạt động tuyển dụng này. Theo SemiAnalysis, một số nhà nghiên cứu AI tại DeepSeek kiếm được hơn 1,3 triệu USD/năm, cao hơn mức lương tại nhiều công ty AI hàng đầu khác ở Trung Quốc.
Liang Wenfeng cho biết hầu hết nhà phát triển tại DeepSeek đều là sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp AI, phù hợp với định hướng ưu tiên năng lực hơn kinh nghiệm của công ty. Nhà sáng lập DeepSeek nói: “Các vai trò kỹ thuật cốt lõi của chúng tôi chủ yếu được đảm nhận bởi những sinh viên mới tốt nghiệp hoặc những người chỉ có từ một đến hai năm kinh nghiệm làm việc”.
Trong số các nhân tài AI của DeepSeek, Gao Huazuo và Zeng Wangding là hai người được công ty nêu tên vì đã thực hiện “những đổi mới quan trọng trong nghiên cứu kiến trúc MLA”.
Kiến trúc MLA (Multi-head Latent Attention) là một dạng kiến trúc trong các mô hình AI, đặc biệt là trong các mô hình ngôn ngữ lớn.
Gao Huazuo tốt nghiệp Đại học Bắc Kinh vào năm 2017 với bằng cử nhân vật lý, trong khi Zeng Wangding bắt đầu học thạc sĩ tại Viện AI của Đại học Bưu chính Viễn thông Bắc Kinh năm 2021. Hai hồ sơ này cho thấy cách tiếp cận khác biệt của DeepSeek trong tuyển dụng tài năng, khi phần lớn các công ty khởi nghiệp AI tại Trung Quốc thường ưu tiên tuyển dụng các nhà nghiên cứu có kinh nghiệm hoặc các tiến sĩ được đào tạo ở nước ngoài, chuyên ngành khoa học máy tính.
Những thành viên chủ chốt khác của đội ngũ DeepSeek gồm Guo Daya (tiến sĩ tốt nghiệp năm 2023 tại Đại học Tôn Trung Sơn), Zhu Qihao và Dai Damai (đều là tiến sĩ mới tốt nghiệp từ Đại học Bắc Kinh).
Một trong những tài năng nổi bật nhất của DeepSeek là Luo Fuli. Luo Fuli đã thu hút sự chú ý khi có thông tin Lei Jun (nhà sáng lập kiêm Giám đốc điều hành Xiaomi) từng đề nghị gói lương lên tới 10 triệu nhân dân tệ mỗi năm (1,4 triệu USD) để mời cô làm việc, nhưng thông tin gần đây cho biết cô vẫn chưa chấp nhận lời mời. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo Fuli được truyền thông Trung Quốc gọi là “thần đồng AI”.
Theo SemiAnalysis, DeepSeek tập trung vào hiệu quả và cải tiến thuật toán thay vì mở rộng quy mô bằng cách gia tăng sức mạnh phần cứng. Cách tiếp cận này không chỉ định hình lại kỳ vọng về phát triển mô hình AI mà còn có thể làm giảm nhu cầu với GPU cao cấp, gây ảnh hưởng tiềm tàng đến Nvidia.
Sự vươn lên của DeepSeek cho thấy cách một công ty AI độc lập và được tài trợ tốt có thể thách thức các tập đoàn hàng đầu trong ngành. Tuy nhiên, những lời ca ngợi DeepSeek đôi khi có phần cường điệu. SemiAnalysis cho rằng thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược hàng tỉ USD, đột phá kỹ thuật và lực lượng lao động giàu sức cạnh tranh.
Không có phép màu nào ở đây, như Elon Musk từng nhấn mạnh khoảng một năm trước rằng để cạnh tranh trong lĩnh vực AI, các công ty cần chi hàng tỉ USD mỗi năm - con số mà DeepSeek có thể đã đạt đến.