Phát hiện mới cho thấy mô hình AI DeepSeek 'không phải chỉ tốn 6 triệu USD'
Không có phép màu nào ở đây. Thực tế, thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược 'hàng tỷ USD', những đột phá kỹ thuật và một lực lượng lao động giàu sức cạnh tranh…
Công ty khởi nghiệp Trung Quốc DeepSeek gần đây đã trở thành tâm điểm chú ý trong thế giới công nghệ nhờ khả năng sử dụng tài nguyên tính toán thấp đáng kinh ngạc cho mô hình AI tiên tiến có tên là R1, một mô hình được cho là có khả năng cạnh tranh với o1 của Open AI. Mặc dù “giỏi tương đương” o1, startup Trung Quốc tuyên bố DeepSeek chỉ tốn 6 triệu USD và 2.048 GPU để đào tạo.
DEEKSEEK ĐÃ CHI ÍT NHẤT 1,6 TỶ USD VÀ DÙNG 50.000 GPU NVIDIA
Tuy nhiên, công ty phân tích chuyên ngành SemiAnalysis vừa báo cáo rằng startup đứng sau DeepSeek đã phải bỏ ra 1,6 tỷ USD chi phí phần cứng và có đội ngũ gồm 50.000 GPU Nvidia Hopper. Đây là phát hiện khiến mọi người “ngã ngửa” khi từng thán phục DeepSeek đã tái tạo đào tạo và suy luận AI với mức đầu tư thấp hơn đáng kể so với các công ty dẫn đầu ngành AI.
Báo cáo tuyên bố rằng DeepSeek vận hành một cơ sở hạ tầng điện toán rộng lớn với khoảng 50.000 GPU Hopper. Theo SemiAnalysis, con số này bao gồm 10.000 H800 và 10.000 H100, với các đơn vị mua thêm H20. Các tài nguyên này được phân phối trên nhiều địa điểm và phục vụ các mục đích như đào tạo AI, nghiên cứu và lập mô hình tài chính. Tổng vốn đầu tư của công ty vào máy chủ là khoảng 1,6 tỷ USD, với ước tính 944 triệu USD chi cho chi phí vận hành.
DeepSeek đã thu hút sự chú ý của thế giới AI khi công bố các yêu cầu phần cứng “rất nhỏ” của mô hình AI DeepSeek-V3 Mixture-of-Experts (MoE) của mình, thấp hơn rất nhiều so với các mô hình có trụ sở tại Hoa Kỳ. Sau đó, DeepSeek đã làm rung chuyển thế giới công nghệ cao với mô hình AI R1 cạnh tranh với AI mở. Tuy nhiên, công ty tình báo thị trường uy tín SemiAnalysis đã tiết lộ những phát hiện của mình cho thấy công ty có khoản đầu tư phần cứng trị giá khoảng 1,6 tỷ USD.
Trong thực tế, DeepSeek có nguồn gốc từ High-Flyer, một quỹ đầu tư của Trung Quốc đã áp dụng AI từ sớm và đầu tư mạnh vào GPU. Vào năm 2023, High-Flyer đã ra mắt DeepSeek như một liên doanh riêng biệt chỉ tập trung vào AI. Không giống như nhiều đối thủ cạnh tranh, DeepSeek vẫn tự cấp vốn, mang lại cho công ty sự linh hoạt và tốc độ trong việc ra quyết định. Mặc dù tuyên bố rằng đây là một nhánh nhỏ, công ty đã đầu tư hơn 500 triệu USD vào công nghệ của mình, theo SemiAnalysis.
Như vậy, tuyên bố cho rằng DeepSeek chỉ tốn 6 triệu USD để đào tạo mô hình AI mới nhất đã thu hút nhiều sự chú ý. Tuy nhiên, con số này chỉ phản ánh chi phí cho thời gian sử dụng GPU trong giai đoạn đào tạo ban đầu, không bao gồm các khoản chi phí quan trọng khác như nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu hay duy trì cơ sở hạ tầng.
Trên thực tế, DeepSeek đã đầu tư hơn 500 triệu USD vào phát triển AI kể từ khi thành lập. Theo SemiAnalysis, khác với các tập đoàn lớn bị cản trở bởi bộ máy quan liêu, cấu trúc gọn nhẹ của DeepSeek giúp công ty thúc đẩy đổi mới nhanh chóng và hiệu quả hơn trong lĩnh vực AI.
Điểm nổi bật của DeepSeek là khả năng tự vận hành trung tâm dữ liệu, thay vì phụ thuộc vào các nhà cung cấp đám mây như nhiều công ty khởi nghiệp AI khác. Nhờ sự độc lập này, DeepSeek có thể kiểm soát hoàn toàn quá trình thử nghiệm và tối ưu hóa mô hình AI. Điều này cũng giúp công ty tiến hành các cải tiến nhanh hơn mà không bị chậm trễ do các hạn chế bên ngoài, mang lại hiệu quả cao hơn so với nhiều công ty trong ngành.
DEEPSEEK TUYỂN DỤNG: GENZ, CHUYÊN GIA VĂN HỌC VÀ TRẢ LƯƠNG CAO HƠN CẢ SILICON VALLEY
Điều đáng chú ý khác nữa về DeepSeek là cách tiếp cận tuyển dụng khác biệt so với nhiều công ty Trung Quốc khác. Thay vì săn đón nhân tài từ Đài Loan hay Hoa Kỳ, DeepSeek tập trung tuyển dụng từ chính Trung Quốc đại lục. Công ty ưu tiên tìm kiếm các ứng viên có kỹ năng và khả năng giải quyết vấn đề hơn là chỉ dựa vào chứng chỉ chính thức.
Các trường đại học hàng đầu như Đại học Bắc Kinh và Đại học Chiết Giang là mục tiêu chính của hoạt động tuyển dụng, với mức lương cạnh tranh. Theo SemiAnalysis, một số nhà nghiên cứu AI tại DeepSeek kiếm được hơn 1,3 triệu USD, cao hơn mức lương tại nhiều công ty AI hàng đầu khác ở Trung Quốc như Moonshot.
Đặc biệt, về chiến lược tuyển dụng, không giống như các đối thủ cạnh tranh, nhà sáng lập DeepSeek 40 tuổi đang hướng đến thế hệ Z và các chuyên ngành nhân văn để dẫn đầu AI mang tính cách mạng của mình. Theo đó, kinh nghiệm làm việc không phải là yếu tố hàng đầu trong danh sách của ông khi cân nhắc các ứng viên DeepSeek.
"Nếu đang theo đuổi các mục tiêu ngắn hạn, thì việc tìm những người có kinh nghiệm là điều đúng đắn", CEO Liang cho biết trong một cuộc phỏng vấn năm 2023 với hãng truyền thông Trung Quốc 36Kr. "Nhưng nếu nhìn vào dài hạn, kinh nghiệm không quá quan trọng. Các kỹ năng cơ bản, sự sáng tạo và đam mê quan trọng hơn nhiều".
Ông nhấn mạnh rằng đã việc một người từng làm một công việc tương tự trước đây không có nghĩa là họ có thể làm công việc này, đồng thời nói thêm rằng những người lao động trẻ tuổi thiếu kinh nghiệm sáng tạo hơn những chuyên gia AI dày dạn kinh nghiệm, những người có thể bị sa lầy vào kiến thức của chính họ.
"Khi làm một việc gì đó, những người có kinh nghiệm sẽ làm theo một cách nào đó. Nhưng những người thiếu kinh nghiệm sẽ liên tục khám phá và suy nghĩ nghiêm túc về cách thực hiện, rồi tìm ra giải pháp phù hợp với tình hình thực tế hiện tại".
CEO của DeepSeek cũng tuyển dụng những người có xuất thân không theo truyền thống, đặc biệt là những người ham đọc sách. Ông Liang đã công khai về việc đưa những người đam mê văn học vào nhóm kỹ sư để giúp tinh chỉnh các mô hình AI của công ty. “Mỗi người đều có hành trình riêng và mang theo những ý tưởng riêng, vì vậy không cần phải thúc ép họ”, ông nói.
Sự hội tụ của nhiều nhân tài đã giúp DeepSeek đi đầu trong việc phát triển các sáng kiến tiên tiến như Multi-Head Latent Attention (MLA), một công nghệ yêu cầu nhiều tháng phát triển và sử dụng lượng lớn GPU. Theo SemiAnalysis, công ty tập trung vào hiệu quả và cải tiến thuật toán thay vì mở rộng quy mô bằng cách gia tăng sức mạnh phần cứng. Cách tiếp cận này không chỉ định hình lại kỳ vọng về phát triển mô hình AI mà còn có thể làm giảm nhu cầu đối với GPU cao cấp, tạo ra tác động tiềm tàng đến các công ty như Nvidia.
Sự vươn lên của DeepSeek cho thấy cách một công ty AI độc lập và được tài trợ tốt có thể thách thức các tập đoàn hàng đầu trong ngành. Tuy nhiên, những lời ca ngợi công khai đôi khi có phần cường điệu. Thực tế phức tạp hơn: theo SemiAnalysis, thành công của DeepSeek là kết quả từ các khoản đầu tư chiến lược hàng tỷ USD, đột phá kỹ thuật và một lực lượng lao động giàu sức cạnh tranh.
Không có phép màu nào ở đây - như Elon Musk từng nhấn mạnh khoảng một năm trước: để cạnh tranh trong lĩnh vực AI, các công ty cần chi hàng tỷ USD mỗi năm, con số mà DeepSeek được cho là đã đạt đến.