Elon Musk nhá hàng Grok 3.5 sau khi Alibaba nói mô hình Qwen3 vượt trội DeepSeek-R1 và o1 của OpenAI

Elon Musk cho biết phiên bản mới nhất của Grok, mô hình trí tuệ nhân tạo (AI) do xAI phát triển, có thể trả lời các câu hỏi kỹ thuật về động cơ tên lửa và điện hóa.

Điện hóa là một nhánh của hóa học nghiên cứu về mối quan hệ giữa điện năng và các phản ứng hóa học. Cụ thể hơn, điện hóa là khoa học nghiên cứu cách các phản ứng hóa học tạo ra dòng điện và cách dòng điện làm xảy ra phản ứng hóa học.

Cuộc cạnh tranh giữa Trung Quốc và Mỹ trong lĩnh vực mô hình AI nền tảng đang trở nên gay gắt hơn, khi Elon Musk (Giám đốc điều hành xAI) nhá hàng Grok 3.5 chỉ vài giờ sau khi gã khổng lồ thương mại điện tử Alibaba công bố các mô hình Qwen3 mới, thu hút sự quan tâm rộng rãi từ cộng đồng phát triển.

Hôm 29.4, Alibaba đã ra mắt thế hệ thứ ba của dòng mô hình Qwen, gồm nhiều phiên bản với lượng tham số khác nhau. Theo Alibaba, mô hình Qwen3 lớn nhất, với 235 tỉ tham số, đã vượt trội hơn mô hình suy luận DeepSeek-R1 và o1 của OpenAI. Phiên bản Qwen3 cân bằng tốt nhất giữa hiệu suất và mức độ tiêu thụ tài nguyên, với 600 triệu tham số, thậm chí có thể chạy trên smartphone, theo nhận định của một số chuyên gia.

Các tham số là những biến số tồn tại trong hệ thống AI ở quá trình huấn luyện, giúp xác định cách dữ liệu đầu vào tạo ra kết quả mong muốn.

Chỉ vài giờ sau khi Alibaba đưa Qwen3 lên nền tảng phát triển AI mã nguồn mở Hugging Face, Elon Musk đã đăng trên mạng xã hội X rằng công ty khởi nghiệp AI này sẽ phát hành bản beta đầu tiên của Grok 3.5 cho người dùng đăng ký SuperGrok (người có quyền truy cập cao cấp, thường gồm các tính năng nâng cao, mới nhất hoặc độc quyền của Grok).

“Đây là AI đầu tiên có thể trả lời chính xác các câu hỏi kỹ thuật về động cơ tên lửa hoặc điện hóa”, tỷ phú giàu nhất thế giới viết.

Ngoài xAI, Elon Musk còn là Giám đốc điều hành hãng ô tô điện Tesla và công ty hàng không vũ trụ SpaceX.

Elon Musk gọi Grok 3.5 là AI đầu tiên có thể trả lời chính xác các câu hỏi kỹ thuật về động cơ tên lửa hoặc điện hóa - Ảnh: Reuters

Elon Musk gọi Grok 3.5 là AI đầu tiên có thể trả lời chính xác các câu hỏi kỹ thuật về động cơ tên lửa hoặc điện hóa - Ảnh: Reuters

Hệ sinh thái AI mã nguồn mở lớn nhất thế giới

Việc DeepSeek ra mắt R1 vào tháng 1 đã đánh dấu sự khởi đầu cho một cuộc đua AI mới, với lịch trình phát hành các mô hình ngày càng được đẩy nhanh, trong đó nhiều sản phẩm tập trung vào tiết kiệm tài nguyên.

Các mô hình DeepSeek có chi phí thấp nhưng hiệu quả cao được xem là lời cảnh tỉnh với những nhà phát triển tại Mỹ, cho thấy ngành AI của nước này có thể không còn dẫn trước Trung Quốc quá xa như nhiều người từng nghĩ.

Ngoài Alibaba, các hãng công nghệ lớn Trung Quốc như Baidu, ByteDance và Tencent đã cập nhật mô hình nền tảng trong ba tháng qua, đạt hiệu suất gần ngang bằng sản phẩm Mỹ như Google Gemini 2.5 Pro, o1 và o3 của OpenAI, Llama 4 của Meta Platforms.

Một báo cáo từ Đại học Stanford (Mỹ) trong tháng 4 cho thấy Trung Quốc đã nhanh chóng thu hẹp khoảng cách với Mỹ về phát triển các mô hình AI tiên tiến. Các mô hình AI mã nguồn mở của Trung Quốc đang trở nên phổ biến với cả nhà phát triển và người dùng.

Qwen của Alibaba hiện là hệ sinh thái AI mã nguồn mở lớn nhất thế giới, với hơn 100.000 mô hình phái sinh (được phát triển hoặc tinh chỉnh dựa trên Qwen), vượt qua số lượng các mô hình dựa trên Llama của Meta Platforms.

Alibaba phát hành Qwen3 chỉ ba tháng sau khi ra mắt Qwen2.5-Max, cho thấy tốc độ cạnh tranh khốc liệt giữa các hãng công nghệ trong lĩnh vực AI tạo sinh. Trong khi đó, DeepSeek đang là tâm điểm của nhiều lời đồn đoán liên quan đến mô hình suy luận mới là R2.

Những tin đồn về R2 liên quan đến việc sản phẩm sắp ra mắt cùng những chuẩn mực mới về hiệu quả chi phí và hiệu suất hoạt động mà nó thiết lập.

Theo các bài đăng trên nền tảng mạng xã hội giao dịch chứng khoán Jiuyangongshe (Trung Quốc) gần đây, R2 được phát triển bằng kiến trúc kết hợp gọi là “hỗn hợp các chuyên gia” (MoE), với tổng cộng 1.200 tỉ tham số, giúp chi phí xây dựng rẻ hơn 97,3% so với mô hình GPT-4o của OpenAI.

MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia, mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này được cho giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Theo các bài đăng trên Jiuyangongshe (sau đó đã bị xóa), R2 được huấn luyện bằng cụm máy chủ sử dụng chip Ascend 910B của Huawei - đạt 91% hiệu suất so với cụm máy chủ cùng quy mô dùng chip Nvidia A100.

Các bài đăng khác trên Jiuyangongshe còn cho rằng R2 có “khả năng thị giác tốt hơn” so với R1, vốn không có chức năng xử lý hình ảnh.

Nhiều tài khoản trên mạng xã hội X dẫn lại các bài viết từ Jiuyangongshe, làm dấy lên làn sóng thảo luận về R2.

Trong một bài đăng trên X, Deedy Das (đối tác tại Menlo Ventures, một trong những quỹ đầu tư mạo hiểm lâu đời nhất Thung lũng Silicon) viết rằng R2 đánh dấu “sự dịch chuyển lớn khỏi chuỗi cung ứng của Mỹ”, dựa trên việc mô hình AI này được phát triển bằng chip AI Trung Quốc?! Bài viết này đã thu hút hơn 800.000 lượt xem.

Theo nguồn tin của Reuters, DeepSeek có thể ra mắt mô hình suy luận mới R2 đầu tháng 5 tới, nhưng công ty vẫn chưa công bố bất kỳ thông tin nào liên quan đến tiến độ phát hành này.

Dù có sự quan tâm rất lớn với công ty và nhà sáng lập Lương Văn Phong, DeepSeek vẫn không tương tác nhiều với công chúng ngoài việc công bố vài bản cập nhật sản phẩm và xuất bản các bài báo nghiên cứu. Bản nâng cấp mô hình ngôn ngữ lớn gần nhất của DeepSeek là vào ngày 25.3, khi công ty tung ra phiên bản cải tiến cho V3.

Mô hình mới DeepSeek-V3-0324 được phát hành trên Hugging Face, đánh dấu bước tiến mới nhất của công ty này trong nỗ lực khẳng định vị thế trên thị trường AI đang phát triển nhanh chóng.

DeepSeek-V3-0324 mang lại những cải thiện đáng kể về khả năng lập luận và lập trình so với các mô hình trước đó. Các bài kiểm tra tiêu chuẩn cho thấy hiệu suất của nó được cải thiện trên nhiều chỉ số kỹ thuật được công bố trên Hugging Face.

Cột mốc quan trọng hướng tới AGI

Đội ngũ phát triển Qwen, thuộc Alibaba Cloud (đơn vị điện toán đám mây của Alibaba), cho biết Qwen3 là cột mốc quan trọng trong hành trình hướng tới trí tuệ nhân tạo tổng quát (AGI).

AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".

Theo Nathan Lambert - nhà nghiên cứu tại Viện AI Allen (Mỹ), các mô hình mã nguồn mở như Qwen3 và DeepSeek-R1 có thể là “cách hiệu quả nhất để các công ty Trung Quốc giành thị phần tại Mỹ”.

“Các công ty Trung Quốc với mô hình nguồn mở đang làm rất tốt việc thể hiện sức mạnh mềm trong hệ sinh thái AI Mỹ. Chúng ta đều có thể hưởng lợi về mặt công nghệ từ họ”, Nathan Lambert viết trong bản tin Substack của mình.

Sức mạnh mềm là khái niệm trong quan hệ quốc tế, được phổ biến bởi học giả Joseph Nye. Nó đề cập đến khả năng một quốc gia, tổ chức hoặc cá nhân đạt được điều mình muốn thông qua sự hấp dẫn và thuyết phục thay vì ép buộc hay dùng vũ lực.

Bản chất của sức mạnh mềm nằm ở việc tạo ra sự thiện cảm, ngưỡng mộ và mong muốn noi theo từ phía đối tượng bị ảnh hưởng. Thay vì ra lệnh hay đe dọa, chủ thể sử dụng sức mạnh mềm khiến người khác tự nguyện muốn điều mà chủ thể đó mong muốn.

Theo Lý Khai Phục – Giám đốc điều hành công ty khởi nghiệp 01.AI, Trung Quốc đã rút ngắn khoảng cách phát triển AI với Mỹ xuống chỉ còn ba tháng trong một số lĩnh vực, nhờ các công ty như DeepSeek tối ưu hóa việc sử dụng chip và áp dụng thuật toán hiệu quả hơn.

Lý Khai Phục, nhân vật có tầm ảnh hưởng trong lĩnh vực AI toàn cầu và từng là Chủ tịch Google Trung Quốc, nói với Reuters rằng DeepSeek đã giúp Trung Quốc vượt lên trong một số lĩnh vực như kỹ thuật phần mềm hạ tầng.

"Trước đây, tôi nghĩ rằng khoảng cách là từ 6 đến 9 tháng và Trung Quốc thua kém ở mọi mặt. Song bây giờ, tôi tin rằng có lẽ Trung Quốc chỉ chậm hơn Mỹ khoảng 3 tháng trong một số công nghệ cốt lõi, nhưng thực tế lại đang dẫn trước ở một số lĩnh vực cụ thể", Lý Khai Phục nói với Reuters trong một cuộc phỏng vấn cuối tháng 3.

Ông cho rằng các lệnh trừng phạt về chất bán dẫn của Mỹ là "con dao hai lưỡi", gây ra khó khăn trong ngắn hạn nhưng cũng buộc các công ty Trung Quốc phải đổi mới trong điều kiện hạn chế, đặc biệt về việc phát triển thuật toán.

"Việc DeepSeek có thể tìm ra chuỗi tư duy mới để cải tiến học tăng cường cho thấy họ đang bắt kịp Mỹ rất nhanh, hoặc thậm chí còn sáng tạo hơn", Lý Khai Phục nhận định, đề cập đến khả năng của mô hình DeepSeek trong việc hiển thị quá trình lập luận trước khi đưa ra câu trả lời.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/elon-musk-nha-hang-grok-3-5-sau-khi-alibaba-noi-mo-hinh-qwen3-vuot-troi-deepseek-r1-va-o1-cua-openai-232111.html