Rộ tin DeepSeek-R2 được xây dựng bằng kiến trúc mới với chi phí rẻ hơn GPT-4o của OpenAI đến 97,3%
Những tin đồn mới nhất liên quan các chuẩn mực mới về chi phí và hiệu suất mà mô hình trí tuệ nhân tạo R2 của công ty khởi nghiệp DeepSeek (Trung Quốc) thiết lập.
R2 là phiên bản tiếp theo của R1, mô hình trí tuệ nhân tạo (AI) lý luận trình làng vào tháng 1 và gây tiếng vang khắp thế giới.
DeepSeek đang chứng kiến làn sóng đồn đoán rầm rộ trên mạng xã hội, làm gia tăng sự kỳ vọng với mô hình AI mã nguồn mở R2 trong bối cảnh công ty vẫn giữ kín tiến độ phát triển giữa cuộc chiến công nghệ Mỹ-Trung ngày càng gay gắt.
Những lời đồn đoán mới nhất về R2 vừa xuất hiện trên mạng xã hội, trong đó có việc sản phẩm sắp ra mắt cùng những chuẩn mực mới về hiệu quả chi phí và hiệu suất hoạt động mà nó thiết lập.
Điều này phản ánh sự quan tâm ngày càng tăng với DeepSeek sau khi thu hút sự chú ý toàn cầu từ cuối tháng 12.2024 đến tháng 1.2025 bằng việc liên tiếp tung ra hai mô hình AI mã nguồn mở mạnh mẽ V3 và R1.
V3 và R1 được phát triển bằng chi phí và tài nguyên tính toán chỉ bằng một phần nhỏ so với các dự án mô hình ngôn ngữ lớn của các gã khổng lồ công nghệ. Mô hình ngôn ngữ lớn là công nghệ nền tảng cho các dịch vụ AI tạo sinh như ChatGPT và chatbot cùng trên của DeepSeek.
Trong một bài viết, DeepSeek tiết lộ đào tạo V3 chỉ bằng 2.048 GPU (bộ xử lý đồ họa) Nvidia H800 khoảng hai tháng. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
DeepSeek tuyên bố quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.
Theo các bài đăng trên nền tảng mạng xã hội giao dịch chứng khoán Jiuyangongshe (Trung Quốc) mới đây, R2 được phát triển bằng kiến trúc kết hợp gọi là “hỗn hợp các chuyên gia” (MoE), với tổng cộng 1.200 tỉ tham số, giúp chi phí xây dựng rẻ hơn 97,3% so với mô hình GPT-4o của OpenAI.
MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia, mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.
Các tham số là những biến số tồn tại trong hệ thống AI ở quá trình huấn luyện, giúp xác định cách dữ liệu đầu vào tạo ra kết quả mong muốn.
Theo các bài đăng trên Jiuyangongshe (sau đó đã bị xóa), R2 được huấn luyện bằng cụm máy chủ sử dụng chip Ascend 910B của Huawei – đạt 91% hiệu suất so với cụm máy chủ cùng quy mô dùng chip Nvidia A100.
Các bài đăng khác trên Jiuyangongshe còn cho rằng R2 có “khả năng thị giác tốt hơn” so với R1, vốn không có chức năng xử lý hình ảnh.
Nhiều tài khoản trên mạng xã hội X (trước đây là Twitter) dẫn lại các bài viết từ Jiuyangongshe, làm dấy lên làn sóng thảo luận về R2.
Trong một bài đăng trên X, Deedy Das (đối tác tại Menlo Ventures, một trong những quỹ đầu tư mạo hiểm lâu đời nhất Thung lũng Silicon) viết rằng R2 đánh dấu “sự dịch chuyển lớn khỏi chuỗi cung ứng của Mỹ”, dựa trên việc mô hình AI này được phát triển bằng chip AI Trung Quốc?! Bài viết này đã thu hút hơn 600.000 lượt xem.
DeepSeek và Huawei hiện chưa phản hồi khi được trang SCMP đề nghị bình luận hôm 28.4.

Nhiều người mong chờ ngày DeepSeek phát hành mô hình mới R2 - Ảnh: SCMP
Theo nguồn tin của Reuters, DeepSeek có thể ra mắt mô hình suy luận mới R2 đầu tháng 5 tới, nhưng công ty vẫn chưa công bố bất kỳ thông tin nào liên quan đến tiến độ phát hành này.
Dù có sự quan tâm rất lớn với công ty và nhà sáng lập Lương Văn Phong, DeepSeek vẫn không tương tác nhiều với công chúng ngoài việc công bố vài bản cập nhật sản phẩm và xuất bản các bài báo nghiên cứu. Bản nâng cấp mô hình ngôn ngữ lớn gần nhất của DeepSeek là vào ngày 25.3, khi công ty tung ra phiên bản cải tiến cho V3.
Mô hình mới DeepSeek-V3-0324 được phát hành trên nền tảng phát triển Hugging Face, đánh dấu bước tiến mới nhất của công ty này trong nỗ lực khẳng định vị thế trên thị trường AI đang phát triển nhanh chóng.
DeepSeek-V3-0324 mang lại những cải thiện đáng kể về khả năng lập luận và lập trình so với các mô hình trước đó. Các bài kiểm tra tiêu chuẩn cho thấy hiệu suất của nó được cải thiện trên nhiều chỉ số kỹ thuật được công bố trên Hugging Face.
DeepSeek đang khởi động chiến dịch tuyển dụng khẩn cấp các vị trí liên quan đến “sản phẩm và thiết kế” tại thủ đô Bắc Kinh và thành phố Hàng Châu, làm dấy lên đồn đoán về mô hình AI mới mà công ty vẫn giữ kín thông tin.
Thông báo tuyển dụng cho biết ứng viên sẽ tham gia xây dựng “trải nghiệm sản phẩm thông minh thế hệ tiếp theo” dựa trên mô hình ngôn ngữ lớn, theo tài khoản WeChat chính thức của DeepSeek.
DeepSeek được sáng lập bởi doanh nhân công nghệ Lương Văn Phong vào năm 2023. Đây là lần đầu tiên DeepSeek thông báo tuyển dụng các vị trí như quản lý và thiết kế sản phẩm, thiết kế trực quan. Trước đó, công ty có trụ sở tại Hàng Châu chủ yếu tập trung vào nghiên cứu mô hình AI nền tảng.
Chiến dịch tuyển dụng này cho thấy DeepSeek đang chuyển mình thành một tổ chức doanh nghiệp thực thụ (tức là công ty hoạt động chuyên nghiệp, có cấu trúc rõ ràng, vận hành bài bản như các doanh nghiệp lớn).
DeepSeek cũng đang trong quá trình tuyển dụng giám đốc tài chính (CFO), giám đốc vận hành (COO) cùng bốn vị trí khác ở lĩnh vực nghiên cứu và kỹ thuật, theo trang web tuyển dụng của họ.
Những điểm hạn chế của R1
Nhiều doanh nghiệp công nghệ Trung Quốc đã nhanh chóng phát triển các sản phẩm dựa trên mô hình AI mã nguồn mở của DeepSeek, đặc biệt là R1.
Tuy vậy, Lý Ngạn Hoành (nhà sáng lập kiêm Giám đốc điều hành Baidu) cho biết nhu cầu với các mô hình AI dựa trên văn bản như của DeepSeek đang “bị thu hẹp” trong bối cảnh tập đoàn tìm kiếm này nỗ lực tái khẳng định vị thế dẫn đầu về AI tại Trung Quốc.
Cuối tuần qua, doanh nhân 56 tuổi này phát biểu tại hội nghị dành cho các nhà phát triển của Baidu rằng R1 đang có những hạn chế. Dù được cộng đồng lập trình viên quốc tế khen ngợi nhưng R1 chủ yếu thực hiện các nhiệm vụ dựa trên văn bản.
“Thị trường cho các mô hình văn bản đang bị thu hẹp”, Lý Ngạn Hoành nói khi Baidu ra mắt hai mô hình đa phương thức mới Ernie 4.5 Turbo và X1 Turbo, có khả năng xử lý không chỉ văn bản mà còn cả hình ảnh, âm thanh và video.
Ông cho biết thêm rằng mô hình AI của DeepSeek có xu hướng “ảo giác” dễ gây hiểu nhầm hơn, đồng thời chậm hơn và đắt đỏ hơn so với các mô hình trong nước khác.
“Ảo giác” có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được. Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể "đoán đại" theo cách có vẻ hợp lý.
Dù Lý Ngạn Hoành bình luận như trên, Baidu vẫn tiếp tục sử dụng mô hình AI của DeepSeek kể từ khi công ty khởi nghiệp này vươn lên vị trí dẫn đầu lĩnh vực mô hình ngôn ngữ lớn Trung Quốc.
Những tháng gần đây, Baidu đã tích hợp mô hình AI DeepSeek vào nền tảng doanh nghiệp Qianfan cũng như ứng dụng bản đồ và tìm kiếm của mình.