Bản nâng cấp DeepSeek-R1 vượt Qwen3 và Claude 3.7 về lập trình, chỉ thua o3 và o4-mini của OpenAI

29/5/2025 Gốc

DeepSeek đã đưa phiên bản R1-0528 lên nền tảng Hugging Face mà không có bất kỳ tài liệu hay thông báo chính thức nào, song hiệu suất của mô hình trí tuệ nhân tạo (AI) suy luận này đã được cải thiện, theo các bài đánh giá chuẩn.

Công ty khởi nghiệp DeepSeek (Trung Quốc) âm thầm phát hành phiên bản mới của R1 tối 28.5, đánh dấu lần cập nhật đầu tiên kể từ màn ra mắt mô hình suy luận đình đám này hồi tháng 1.

Công ty có trụ sở tại thành phố Hàng Châu cho biết đã “hoàn tất một bản cập nhật nhỏ cho R1”, hiện có sẵn trên trang web chatbot DeepSeek và các ứng dụng di động, theo thông báo trong nhóm WeChat chính thức.

DeepSeek không tiết lộ chi tiết về những thay đổi trong bản cập nhật R1-0528, hiện đã được đăng tải trên nền tảng AI mã nguồn mở Hugging Face. Công ty chưa phản hồi khi trang SCMP đề nghị bình luận.

Lần gần nhất trước đó DeepSeek cập nhật mô hình ngôn ngữ lớn của mình là vào tháng 3, với phiên bản V3-0324 trên Hugging Face, được quảng bá là có cải tiến đáng kể về khả năng lập trình và viết lách.

Mô hình AI hàng đầu Trung Quốc về khả năng lập trình

Dù thông tin cụ thể về R1-0528 chưa được DeepSeek công bố, cộng đồng nhà phát triển đã nhanh chóng chú ý đến nó.

Nền tảng đánh giá độc lập LiveCodeBench báo cáo rằng R1-0528 đã cải thiện rõ rệt trong khả năng lập trình (viết mã) có sự hỗ trợ của AI.

LiveCodeBench là nền tảng đánh giá chuyên sâu về khả năng lập trình của các mô hình AI.

Hiện tại, R1-0528 được xếp hạng là mô hình AI hàng đầu Trung Quốc về khả năng lập trình trên bảng xếp hạng LiveCodeBench, chỉ sau o4-mini-high, o3-high và o4-mini-medium của OpenAI ở quy mô toàn cầu.

R1-0528 vượt qua cả Qwen3 của Alibaba và Claude 3.7 của Anthropic, vốn từng được xem là hai trong những mô hình AI lập trình hàng đầu thế giới hiện nay.

R1-0528 của DeepSeek vượt Qwen3 để trở thành mô hình AI hàng đầu Trung Quốc về khả năng lập trình trên bảng xếp hạng LiveCodeBench - Ảnh: Shutterstock

Bản nâng cấp cho R1 xuất hiện giữa lúc sự mong chờ và kỳ vọng ngày càng cao với R2 - mô hình suy luận thế hệ tiếp theo của DeepSeek.

Cuối tháng 4, DeepSeek âm thầm công bố mã nguồn mở Prover-V2 với 671 tỉ tham số, là bản nâng cấp cho mô hình giải toán chuyên biệt, làm dấy lên cuộc thảo luận sôi nổi trên mạng về thời điểm thế giới sẽ được trải nghiệm R2.

Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.

Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.

Cũng vào cuối tháng trước, những tin đồn liên quan đến R2 đã lan truyền trên mạng xã hội.

Theo các bài đăng trên nền tảng mạng xã hội giao dịch chứng khoán Jiuyangongshe (Trung Quốc), R2 được phát triển bằng kiến trúc kết hợp gọi là “hỗn hợp các chuyên gia” (MoE), với tổng cộng 1.200 tỉ tham số, giúp chi phí xây dựng rẻ hơn 97,3% so với mô hình GPT-4o của OpenAI.

MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia, mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Theo một tin đồn khác, R2 được huấn luyện bằng cụm máy chủ sử dụng chip Ascend 910B của Huawei – đạt 91% hiệu suất so với cụm máy chủ cùng quy mô dùng chip Nvidia A100.

Các bài đăng còn cho rằng R2 có “khả năng thị giác tốt hơn” so với R1, vốn không có chức năng xử lý hình ảnh.

Cuộc chiến khốc liệt trong lĩnh vực AI ở Trung Quốc, từ mô hình AI dựa trên văn bản sang đa phương thức

Cuộc cạnh tranh giữa các hãng công nghệ Trung Quốc trong lĩnh vực AI đang diễn ra ngày càng căng thẳng.

Nổi lên từ đầu năm nay nhờ V3 và R1 hiệu năng cao nhưng được đào tạo với chi phí thấp, DeepSeek gần đây bị mất vị trí nhà phát triển mô hình mã nguồn mở số 1 Trung Quốc. Sau khi trình làng vào tháng 4, Qwen3 của Alibaba đã vươn lên đứng đầu bảng xếp hạng LiveBench. Nền tảng này xếp hạng các mô hình AI dựa trên khả năng lập trình, toán học, phân tích dữ liệu và hướng dẫn ngôn ngữ.

Qwen3 được phát triển bằng kiến trúc MoE giống R1.

Qwen của Alibaba hiện là hệ sinh thái AI mã nguồn mở lớn nhất thế giới, với hơn 100.000 mô hình phái sinh (được phát triển hoặc tinh chỉnh dựa trên Qwen), vượt qua số lượng các mô hình dựa trên Llama của Meta Platforms.

Alibaba phát hành Qwen3 chỉ ba tháng sau khi ra mắt Qwen2.5-Max, cho thấy tốc độ cạnh tranh khốc liệt giữa các hãng công nghệ trong lĩnh vực AI.

Các hãng công nghệ lớn Trung Quốc đang đẩy nhanh nỗ lực chứng minh tiến bộ về công nghệ. Gần đây, trọng tâm của ngành đã mở rộng từ các mô hình AI dựa trên văn bản sang mô hình đa phương thức, có khả năng phân tích và tạo ra hình ảnh, âm thanh, video.

Hôm 26.4, Baidu trình làng mô hình Ernie 4.5 Turbo và X1 Turbo, nhấn mạnh về khả năng suy luận đa phương thức của chúng. Hãng tìm kiếm internet số 1 Trung Quốc quảng bá rằng khả năng đa phương thức là yếu tố khác biệt chính giữa Ernie 4.5 Turbo và X1 Turbo so với các mô hình của DeepSeek.

Ông Lý Ngạn Hoành, nhà sáng lập kiêm Giám đốc điều hành Baidu, cho biết nhu cầu với các mô hình AI dựa trên văn bản như của DeepSeek đang “bị thu hẹp”.

Doanh nhân 56 tuổi này phát biểu tại hội nghị dành cho các nhà phát triển của Baidu rằng R1 của DeepSeek đang có những hạn chế. Dù được cộng đồng nhà phát triển quốc tế khen ngợi nhưng R1 chủ yếu thực hiện các nhiệm vụ dựa trên văn bản.

“Thị trường cho các mô hình văn bản đang bị thu hẹp”, Lý Ngạn Hoành nhận xét.

Ông nói thêm rằng mô hình AI của DeepSeek có xu hướng “ảo giác” dễ gây hiểu nhầm hơn, đồng thời chậm hơn và đắt đỏ hơn so với các mô hình trong nước khác.

“Ảo giác” có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được. Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể "đoán đại" theo cách có vẻ hợp lý.

CEO Baidu cho rằng bối cảnh cạnh tranh giữa các mô hình AI mới liên tục thay đổi, với hàng loạt sản phẩm mạnh mẽ “mở rộng lựa chọn” cho người dùng.

Những nhận xét này được đưa ra khi Baidu đang cố gắng tái định vị mình như một công ty dẫn đầu trong lĩnh vực AI, sau khi buộc phải chuyển hướng bằng cách ngừng dịch vụ đăng ký dùng chatbot trả phí và cung cấp miễn phí các mô hình của mình dưới dạng nguồn mở.

Khi đối mặt với sự cạnh tranh khốc liệt trong nước từ các đối thủ, gồm cả Alibababa, Baidu đã phát hành các mô hình đa phương thức mã nguồn mở có tính cạnh tranh cao.

Baidu đã giới thiệu một số trường hợp sử dụng cho các mô hình đa phương thức của mình, gồm cả một bản cập nhật nền tảng avatar AI, giúp các nhà bán hàng tạo hình đại diện giống người thật để tổ chức livestream và quảng bá sản phẩm.

Dù Lý Ngạn Hoành phát biểu như trên, Baidu vẫn tiếp tục khai thác mô hình AI của DeepSeek kể từ khi công ty khởi nghiệp này gây sốt đầu năm 2025.

Những tháng qua, Baidu đã tích hợp mô hình AI DeepSeek vào nền tảng doanh nghiệp Qianfan cũng như ứng dụng bản đồ và tìm kiếm của mình.

Charlie Dai, Phó chủ tịch hãng nghiên cứu thị trường Forrester Research, cho biết các thông báo của Baidu sẽ “thúc đẩy việc ứng dụng AI trong các ngành công nghiệp tại Trung Quốc, giảm rào cản cho các nhà phát triển và tiếp tục làm gia tăng cạnh tranh với nhà cung cấp lớn khác như Alibaba Cloud, Huawei Cloud, Tencent Cloud”.

Sau khi ChatGPT trình làng vào tháng 11.2022, Baidu là công ty Trung Quốc đầu tiên tung ra sản phẩm để cạnh tranh với chatbot đình đám của OpenAI. Tháng 3.2023, Baidu đã trình làng chabot Erniebot, sau đó phiên bản di động được đổi tên thành Wenxinyan.

Chatbot của Baidu ban đầu đạt được thành công nhất định tại Trung Quốc, nhưng sau đó bị Doubao của ByteDance và chatbot DeepSeek đã vượt qua về mức độ phổ biến. Năm nay, Baidu đã ngừng dịch vụ đăng ký dùng chatbot trả phí do sự đón nhận không cao trước sự phong phú của các sản phẩm miễn phí từ đối thủ.

Từng kiên quyết bảo vệ chiến lược mô hình AI đóng, Baidu thông báo sẽ mở mã nguồn các mô hình Ernie của mình từ ngày 30.6, cho phép nhà phát triển linh hoạt hơn trong việc xây dựng ứng dụng.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/ban-nang-cap-deepseek-r1-vuot-qwen3-va-claude-3-7-ve-lap-trinh-chi-thua-o3-va-o4-mini-cua-openai-233133.html