Alibaba: Qwen-3-Max-Preview hơn 1.000 tỉ tham số, vượt DeepSeek V3.1 và Kimi K2 về hiệu suất
Qwen-3-Max-Preview là mô hình AI đầu tiên của Alibaba vượt ngưỡng 1.000 tỉ tham số.
Tập đoàn Alibaba vừa phát hành mô hình AI (trí tuệ nhân tạo) lớn nhất từ trước tới nay. Qua đó, gã khổng lồ thương mại điện tử Trung Quốc gia nhập hàng ngũ các hãng cung cấp mô hình AI có hàng nghìn tỉ tham số, gồm cả OpenAI và Google.
Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) chính xác nhất có thể dựa trên dữ liệu đã học.
Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.
Qwen-3-Max-Preview, mô hình Alibaba đầu tiên có hơn 1.000 tỉ tham số, vừa được phát hành trên nền tảng dịch vụ đám mây chính thức của tập đoàn Trung Quốc này và cả OpenRouter (chợ mô hình ngôn ngữ lớn do Alibaba phát triển).
Đây là phiên bản mới nhất trong dòng Qwen3 của công ty có trụ sở tại thành phố Hàng Châu, Trung Quốc.
Dòng mô hình Qwen3 được Alibaba phát hành lần đầu vào tháng 5, có quy mô từ 600 triệu đến 235 tỉ tham số.

Qwen-3-Max-Preview là mô hình đầu tiên của Alibaba vượt ngưỡng 1.000 tỉ tham số - Ảnh: SCMP
GPT-4.5 của công ty khởi nghiệp OpenAI (Mỹ) được ước tính có từ 5.000 đến 7.000 tỉ tham số. Một trang phân tích gần đây dự đoán GPT-5, mô hình AI mới nhất của OpenAI, có từ 1 đến 2.000 tỉ tham số, nhưng “cha đẻ ChatGPT” chưa công khai thông tin này.
Qwen-3-Max-Preview vượt DeepSeek V3.1, Kimi K2, Claude Opus 4 trên năm thước đo đánh giá
Theo Alibaba, Qwen-3-Max-Preview chỉ hỗ trợ xử lý văn bản, vượt trội hơn mô hình tốt nhất trước đó của họ là Qwen3-235B-A22B-2507 (trình làng vào tháng 7) trong các bài kiểm thử nội bộ.
Alibaba cũng công bố điểm số cho thấy Qwen-3-Max-Preview vượt DeepSeek V3.1, Kimi K2 của MoonShot AI (Trung Quốc), phiên bản không suy luận của Claude Opus 4 do Anthropic (Mỹ) phát triển, trên 5 thước đo đánh giá. Cụ thể gồm:
SuperGPQA: Khả năng trả lời câu hỏi tổng hợp.
AIME25: Khả năng hiểu và xử lý ngữ nghĩa.
LiveCodeBench v6: Khả năng lập trình và xử lý mã.
Arena-Hard v2: Khả năng suy luận và giải quyết vấn đề phức tạp.
LiveBench (20241125): Khả năng xử lý ngữ cảnh và phản hồi linh hoạt.
Tuy nhiên, những dữ liệu này không được đưa vào báo cáo kỹ thuật chính thức.
“Qwen3-Max-Preview thể hiện những cải thiện đáng kể về năng lực tổng thể, với sự nâng cấp mạnh mẽ trong khả năng hiểu văn bản Trung-Anh, tuân thủ các chỉ dẫn phức tạp, xử lý các tác vụ mở mang tính chủ quan (đưa ra câu trả lời hợp lý, sáng tạo hoặc thuyết phục trong những tình huống không có đáp án chuẩn mực – PV), khả năng đa ngôn ngữ và gọi công cụ (kích hoạt và sử dụng các công cụ bên ngoài thông qua tích hợp API hoặc plugin – PV). Việc mở rộng quy mô đang diễn ra và bản phát hành chính thức sẽ còn làm bạn ngạc nhiên hơn nữa”, Alibaba tuyên bố.
Các mô hình Qwen đã đưa Alibaba lên vị trí dẫn đầu trong hệ sinh thái AI mã nguồn mở toàn cầu, với hơn 20 triệu lượt tải xuống và 100.000 mô hình dẫn xuất trên nền tảng phát triển mã nguồn mở Hugging Face.
Mô hình dẫn xuất được phát triển dựa trên một mô hình gốc đã được công bố trước đó. Khi một công ty hoặc viện nghiên cứu phát hành mô hình mã nguồn mở, cộng đồng hoặc các nhà nghiên cứu có thể tải về và tiến hành tinh chỉnh, thay đổi cấu trúc hoặc bổ sung dữ liệu huấn luyện mới để tạo ra phiên bản phù hợp hơn với nhu cầu sử dụng cụ thể. Những phiên bản này được gọi là mô hình dẫn xuất.
Trong thực tế, quá trình tạo ra mô hình dẫn xuất thường gồm việc tinh chỉnh trên tập dữ liệu chuyên biệt như y tế, pháp luật, giáo dục; điều chỉnh tham số để tối ưu hiệu năng; kết hợp thêm công cụ, plugin nhằm mở rộng khả năng của mô hình.
Tuy nhiên, Qwen-3-Max-Preview hiện chưa được mở mã nguồn, quyền truy cập chỉ khả dụng thông qua các kênh chính thức. Qwen2.5-Max, mô hình AI trước đó trong dòng Max trình làng hồi tháng 1, cũng không được mở mã nguồn.
Trên mạng xã hội, Binyuan Hui (kỹ sư AI của Alibaba) cho biết một phiên bản có khả năng tư duy của Qwen-3-Max-Preview đang “trong quá trình phát triển”.
Qwen-3-Max-Preview: Một trong những mô hình Qwen đắt nhất khi truy cập qua API
Trên nền tảng Alibaba Cloud, Qwen-3-Max-Preview được áp dụng mức giá theo tầng, với mức tối thiểu 0,861 USD cho mỗi triệu token đầu vào và 3,441 USD cho mỗi triệu token đầu ra. Qua đó, Qwen-3-Max-Preview trở thành một trong những mô hình Qwen đắt nhất khi truy cập qua API (giao diện lập trình ứng dụng).
Để so sánh, Qwen3-235B-A22B-2507 thu phí 0,287 USD cho mỗi triệu token đầu vào và 1,147 USD cho mỗi triệu token đầu ra với phiên bản không có khả năng tư duy.
Mô hình Kimi K2 thu phí 0,60 USD cho mỗi triệu token đầu vào và 2,50 USD cho mỗi triệu token đầu ra.
Alibaba đã cam kết đầu tư 380 tỉ nhân dân tệ (tương đương 52 tỉ USD) vào hạ tầng AI trong ba năm tới, vượt mức tổng đầu tư của công ty vào lĩnh vực này trong suốt thập kỷ qua.
Theo kết quả tài chính quý 2/2025, Alibaba cho biết đã thấy lợi nhuận từ các khoản đầu tư AI, với các sản phẩm liên quan đến AI đạt mức tăng trưởng ba chữ số 8 quý liên tiếp gần đây.
Trong AI, token là đơn vị cơ bản mà mô hình AI xử lý. Token có thể là một từ hoàn chỉnh, một phần của từ hoặc một ký tự đặc biệt, gồm cả dấu câu. Ví dụ, câu “Tôi yêu AI” có thể được tách thành ba token: “Tôi”, “yêu”, “AI”.
Token đầu vào là số lượng token mà người dùng gửi vào mô hình AI để xử lý. Chúng đại diện cho văn bản, câu hỏi hoặc lệnh mà bạn cung cấp. Ví dụ, nếu bạn nhập một đoạn văn 100 từ, mô hình AI sẽ tách đoạn này thành các token tương ứng, có thể khoảng 120 token đầu vào, để hiểu yêu cầu và ngữ cảnh.
Token đầu ra là số lượng token mà mô hình AI tạo ra trong phản hồi. Đây là phần văn bản mà AI trả lại cho người dùng. Ví dụ, nếu bạn yêu cầu viết một đoạn văn 50 từ, mô hình AI có thể sinh ra khoảng 65 token đầu ra.
Nhà cung cấp mô hình AI thường tính phí dựa trên tổng số token đầu vào và đầu ra, nghĩa là bạn sẽ trả tiền cho cả phần văn bản gửi vào và phần văn bản AI tạo ra.
DeepSeek V3.1 - đối thủ chính của Qwen-3-Max-Preview
Hôm 21.8 vừa qua, DeepSeek trình làng mô hình mới V3.1 giảm tình trạng “ảo giác” (đưa ra thông tin sai y như thật) so với V3 và R1, hỗ trợ cả chế độ suy luận và không suy luận, đánh dấu bước đầu tiên hướng tới kỷ nguyên tác tử AI của công ty. Đây là động thái cho thấy sự thay đổi của DeepSeek trong trọng tâm nghiên cứu.
Tác tử AI là hệ thống có khả năng nhận thức, lập kế hoạch và thực hiện các hành động độc lập để đạt được mục tiêu. Ví dụ, tác tử AI có thể tự động tìm kiếm thông tin trên internet, tổng hợp dữ liệu, và thực hiện các tác vụ phức tạp mà không cần sự can thiệp liên tục từ người dùng.
Chế độ suy luận trên chatbot cùng tên DeepSeek trước đó được vận hành bởi R1, từng gây chú ý toàn cầu sau khi ra mắt vào tháng 1, ngay sau khi mô hình nền tảng V3 được giới thiệu hồi tháng 12.2024.
Theo một bài viết trên website Nvidia, DeepSeek V3.1 có tổng cộng 671 tỉ tham số, nhưng chỉ 37 tỉ tham số được kích hoạt trong quá trình suy luận. Điều này đồng nghĩa DeepSeek V3.1 dù có tổng số tham số rất lớn, nhưng chỉ một phần nhỏ trong số đó được sử dụng cho mỗi tác vụ cụ thể, giúp giảm thiểu chi phí tính toán và tăng hiệu quả xử lý.
Là bản nâng cấp cho V3, V3.1 áp dụng cách tiếp cận “một mô hình, hai chế độ”, cho thấy DeepSeek có thể sẽ không phát triển R2, phiên bản kế nhiệm R1.
DeepSeek tuyên bố V3.1 đưa ra câu trả lời nhanh hơn mô hình suy luận R1, vốn được cập nhật lần gần nhất vào cuối tháng tháng 5 qua phiên bản R1-0528.
Được mở rộng cửa sổ ngữ cảnh lên 128k, DeepSeek V3.1 có khả năng lưu giữ nhiều thông tin hơn trong các cuộc trò chuyện với người dùng, tương đương cuốn sách khoảng 300 trang.
Một số thử nghiệm bên thứ ba cho thấy V3.1 đã cải thiện khả năng lập trình. Theo Aider Benchmark - bộ đánh giá khả năng lập trình của mô hình AI, DeepSeek V3.1 đứng đầu trong số các hệ thống Trung Quốc. Song khi so với các đối thủ quốc tế, V3.1 vẫn xếp sau Claude Opus 4, vốn được công nhận là một trong những mô hình AI lập trình tốt nhất hiện nay.