Artificial Analysis: Mô hình R1-0528 giúp DeepSeek vượt Meta, xAI và Anthropic, chỉ kém OpenAI
Kết quả đánh giá hiệu năng do DeepSeek trích dẫn cho thấy mô hình trí tuệ nhân tạo (AI) suy luận R1-0528 đã vượt Qwen3 của Alibaba và ngang ngửa sản phẩm từ OpenAI, Google.
Tối 28.5, công ty khởi nghiệp DeepSeek (Trung Quốc) âm thầm phát hành R1-0528, phiên bản nâng cấp của R1 ra mắt hồi tháng 1, nhưng không có bất kỳ tài liệu hay thông báo chính thức nào.
Sau hơn 1 ngày im hơi lặng tiếng, DeepSeek tuyên bố R1-0528 đạt được hiệu năng ngang ngửa các mô hình AI hàng đầu toàn cầu của OpenAI và Google.
Công ty khởi nghiệp có trụ sở ở thành phố Hàng Châu nhấn mạnh về những cải tiến về khả năng suy luận và viết sáng tạo của R1-0528, giúp mô hình này giỏi hơn trong việc viết các bài văn nghị luận, tiểu thuyết và văn xuôi theo phong cách gần giống các tác giả là con người. Theo DeepSeek, khả năng lập trình của R1-0528 cũng được nâng cao.
DeepSeek cho biết R1-0528 đã giảm 50% hiện tượng “ảo giác”, tức mô hình AI tạo ra thông tin sai lệch, không dựa trên cơ sở thực tế.
Theo công ty khởi nghiệp AI Trung Quốc, những cải tiến này đạt được nhờ việc đầu tư thêm tài nguyên điện toán vào giai đoạn hậu huấn luyện (thời điểm các nhà phát triển thực hiện những điều chỉnh cuối cùng sau quá trình huấn luyện chính). Hậu huấn luyện thường tập trung vào việc nâng cao hiệu quả, tính an toàn và độ chính xác của nội dung.
"Sánh ngang o3 và Gemini 2.5 Pro"
“Mô hình R1 được cập nhật đã vượt trội các mô hình AI trong nước ở nhiều bài kiểm tra chuẩn, gồm toán học, lập trình và tư duy logic tổng quát, và sánh ngang những mô hình hàng đầu toàn cầu như o3 của OpenAI và Gemini 2.5 Pro của Google”, DeepSeek tuyên bố.
Tư duy logic tổng quát đề cập đến khả năng suy luận hợp lý, phân tích và giải quyết vấn đề một cách logic trong nhiều bối cảnh khác nhau, không giới hạn trong một lĩnh vực chuyên môn cụ thể.
R1-0528 được DeepSeek phát hành khoảng 1 tháng sau khi R1 bị Qwen3, mô hình hàng đầu của gã khổng lồ thương mại điện tử Alibaba, soán ngôi hồi cuối tháng 4 trên bảng xếp hạng LiveBench dành cho các hệ thống AI mã nguồn mở. Sự thay đổi này cho thấy mức độ cạnh tranh gay gắt giữa các hãng công nghệ Trung Quốc trong cuộc đua phát triển AI.
Các kết quả đánh giá hiệu năng mà DeepSeek trích dẫn cho thấy R1-0528 đã giành lại ngôi đầu, vượt Qwen3, vốn chỉ mới ra mắt một tháng trước đó.
R1-0528 cho thấy DeepSeek đã “vượt xAI, Meta Platforms và Anthropic để trở thành phòng thí nghiệm AI số thứ 2 thế giới, chỉ kém OpenAI”, theo nhận định từ công ty tư vấn Artificial Analysis.

Artificial Analysis: R1-0528 giúp DeepSeek đã trở thành hãng dẫn đầu trong lĩnh vực mô hình AI mã nguồn mở - Ảnh: Getty Images
Artificial Analysis nhấn mạnh rằng DeepSeek đã trở thành công ty dẫn đầu không thể chối cãi trong lĩnh vực mô hình AI mã nguồn mở, khi khoảng cách giữa mô hình nguồn mở và đóng đang thu hẹp đáng kể.
So với các mô hình AI nguồn đóng, R1-0528 chỉ xếp sau o4-mini (bản High) và o3 thuộc OpenAI trong bảng chỉ số trí tuệ của Artificial Analysis. Đây là bảng xếp hạng các mô hình AI hàng đầu theo năng lực toán học, lập trình, kiến thức chuyên ngành và hiểu ngôn ngữ.
Nền tảng đánh giá độc lập LiveCodeBench cũng báo cáo rằng R1-0528 đã cải thiện rõ rệt trong khả năng lập trình có sự hỗ trợ của AI.
Hiện tại, R1-0528 được xếp hạng là mô hình AI hàng đầu Trung Quốc về khả năng lập trình trên bảng xếp hạng LiveCodeBench, chỉ sau o4-mini-high, o3-high và o4-mini-medium của OpenAI ở quy mô toàn cầu.
R1-0528 vượt qua cả Qwen3 của Alibaba và Claude 3.7 của Anthropic, vốn từng được xem là hai trong những mô hình AI lập trình hàng đầu thế giới hiện nay.
LiveCodeBench là nền tảng đánh giá chuyên sâu về khả năng lập trình của các mô hình AI.
Làn sóng áp dụng R1-0528
Việc ra mắt R1-0528 đã thu hút sự chú ý từ cộng đồng công nghệ cả trong và ngoài Trung Quốc, tạo nên làn sóng áp dụng mô hình này nhanh chóng tương tự khi R1 được giới thiệu hồi tháng 1.
R1từng gây ấn tượng mạnh với các nhà phát triển nhờ hiệu năng cao và chi phí huấn luyện thấp.
Ngày 30.5, các hãng công nghệ lớn Trung Quốc như Tencent Holdings, Baidu và ByteDance (chủ sở hữu TikTok) đều công bố tích hợp R1-0528 vào nền tảng điện toán đám mây của họ dành cho nhà phát triển và khách hàng doanh nghiệp.
Trên phạm vi toàn cầu, các công ty khởi nghiệp hạ tầng và huấn luyện AI như Fireworks AI, Hyperbolics cũng tích hợp R1-0528 vào nền tảng của họ.
Như vậy, dù chưa cần tung ra R2 - mô hình suy luận thế hệ tiếp theo, DeepSeek đã tiếp tục gây được tiếng vang.
Rộ tin R2 được phát triển bằng kiến trúc kết hợp gọi là “hỗn hợp các chuyên gia” (MoE), với tổng cộng 1.200 tỉ tham số, giúp chi phí xây dựng rẻ hơn 97,3% so với mô hình GPT-4o của OpenAI.
MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia, mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.
Theo một tin đồn khác, R2 được huấn luyện bằng cụm máy chủ sử dụng chip Ascend 910B của Huawei – đạt 91% hiệu suất so với cụm máy chủ cùng quy mô dùng chip Nvidia A100.
Các bài đăng trên mạng xã hội cuối tháng 4 còn cho rằng R2 có “khả năng thị giác tốt hơn” so với R1, vốn không có chức năng xử lý hình ảnh.
Chắt lọc kiến thức để tạo ra mô hình AI nhỏ hơn
Hôm nay, DeepSeek tiết lộ đã chắt lọc kiến thức từ R1-0528 để tạo ra mô hình AI nhỏ hơn mang tên R1-0528-Qwen3-8B. Mô hình này có hiệu năng ngang bằng với Qwen3-235B của Alibaba, dù kích thước tham số chỉ bằng khoảng 1/30.
Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.
Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.
Việc chắt lọc là quá trình chuyển giao kiến thức từ các hệ thống AI lớn, phức tạp sang các mô hình nhỏ hơn. Điều đó giúp tạo ra mô hình AI gọn nhẹ nhưng vẫn giữ được nhiều khả năng mạnh mẽ. DeepSeek cho biết thử nghiệm này có thể mang đến ảnh hưởng quan trọng với nghiên cứu học thuật về mô hình suy luận cũng như việc phát triển thương mại các hệ thống AI nhẹ hơn.
Dù nhận được sự quan tâm rất lớn, DeepSeek không tương tác nhiều với công chúng ngoài việc công bố vài bản cập nhật sản phẩm và xuất bản các bài báo nghiên cứu.
Cuối tháng 4, DeepSeek khởi động chiến dịch tuyển dụng khẩn cấp các vị trí liên quan đến “sản phẩm và thiết kế” tại thủ đô Bắc Kinh và thành phố Hàng Châu.
Thông báo tuyển dụng cho biết ứng viên sẽ tham gia xây dựng “trải nghiệm sản phẩm thông minh thế hệ tiếp theo” dựa trên mô hình ngôn ngữ lớn, theo tài khoản WeChat chính thức của DeepSeek.
DeepSeek được sáng lập bởi doanh nhân công nghệ Lương Văn Phong vào năm 2023. Đây là lần đầu tiên DeepSeek thông báo tuyển dụng các vị trí như quản lý và thiết kế sản phẩm, thiết kế trực quan. Trước đó, công ty có trụ sở tại Hàng Châu chủ yếu tập trung vào nghiên cứu mô hình AI nền tảng.
Chiến dịch tuyển dụng này cho thấy DeepSeek đang chuyển mình thành một tổ chức doanh nghiệp thực thụ (tức là công ty hoạt động chuyên nghiệp, có cấu trúc rõ ràng, vận hành bài bản như các doanh nghiệp lớn).
DeepSeek còn tuyển dụng giám đốc tài chính (CFO), giám đốc vận hành (COO) cùng bốn vị trí khác ở lĩnh vực nghiên cứu và kỹ thuật, theo trang web tuyển dụng của họ.