Gemini 3.1 Pro dẫn đầu 11/16 bài kiểm tra, giúp Google vượt OpenAI và Anthropic

Theo Google, Gemini 3.1 Pro vượt các mô hình ngôn ngữ lớn khác trong nhiều bài kiểm tra quan trọng.

Google vừa phát hành Gemini 3.1 Pro với nhiều cải tiến đáng chú ý. Theo Google, Gemini 3.1 Pro là mô hình AI tiên tiến nhất từ trước đến nay của hãng, cải thiện đáng kể so với Gemini 3 Pro trong việc xử lý các tác vụ phức tạp cũng như tạo hình ảnh.

Việc ra mắt Gemini 3.1 Pro được lãnh đạo Google xem là một bước tiến quan trọng trong chiến lược phát triển AI, đặc biệt là lĩnh vực suy luận logic và giải quyết vấn đề phức tạp.

Sundar Pichai, Giám đốc điều hành Google, nhấn mạnh rằng Gemini 3.1 Pro đại diện cho bước tiến lớn về năng lực trí tuệ cốt lõi của AI: “Gemini 3.1 Pro đạt 77,1% trên ARC-AGI-2, một bước tiến trong khả năng suy luận cốt lõi (hơn gấp đôi Gemini 3 Pro). Với nền tảng mạnh mẽ hơn, nó rất phù hợp cho các nhiệm vụ cực kỳ phức tạp như trực quan hóa các khái niệm khó hiểu, tổng hợp dữ liệu và xây dựng các dự án sáng tạo”.

Phát biểu này cho thấy Google không chỉ tập trung vào cải thiện tốc độ hay quy mô mô hình, mà đang chuyển trọng tâm sang nâng cao khả năng suy luận thực sự - yếu tố được xem là nền tảng để tiến tới AI tổng quát (AGI).

AGI được xem là siêu AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt giống hay vượt trội con người.

Ngoài ra, Google cũng nhấn mạnh rằng Gemini 3.1 Pro là “mô hình thông minh hơn và có năng lực cao hơn cho việc giải quyết các vấn đề phức tạp”, đồng thời thể hiện tiến bộ rõ rệt trong các bài kiểm tra suy luận nâng cao.

Theo Google, Gemini 3.1 Pro được thiết kế đặc biệt cho những tình huống mà “một câu trả lời đơn giản là chưa đủ” và có thể áp dụng suy luận nâng cao để giải quyết những thách thức khó nhất trong khoa học, kỹ thuật, sáng tạo.

Demis Hassabis, Giám đốc điều hành Google DeepMind, nhiều lần nhấn mạnh rằng mục tiêu của Gemini không chỉ là trả lời câu hỏi mà là tạo ra các hệ thống có khả năng suy luận sâu và giải quyết vấn đề thực sự, tiến gần hơn tới AGI. Quan điểm này phản ánh định hướng dài hạn của Google trong việc xây dựng các mô hình AI có năng lực tư duy tương tự con người.

Gemini 3.1 Pro dẫn đầu 11 trên 16 bài bài kiểm tra

Google cho biết Gemini 3.1 Pro vượt nhiều mô hình ngôn ngữ lớn khác trong các bài kiểm tra tiêu chuẩn quan trọng.

Cụ thể hơn, Gemini 3.1 Pro đạt điểm số dẫn đầu 11 trên 16 bài kiểm tra tiêu chuẩn mà Google đánh giá.

Gemini 3.1 Pro dẫn đầu 11 trên 16 bài kiểm tra khi so sánh với Gemini 3 Pro, Claude Sonnet 4.6, Claude Opus 4.6, GPT-5.2 và GPT-5.3-Codex

Gemini 3.1 Pro đạt 94,3% trên GPQA Diamond, bài kiểm tra kiến thức khoa học cấp chuyên gia, vượt qua Claude Opus 4.6 (91,3%) và GPT-5.2 (92,4%).

Trên ARC-AGI-2, bài kiểm tra các câu đố suy luận trừu tượng được xem là một trong những thử thách khó nhất với các mô hình AI, Gemini 3.1 Pro đạt 77,1%, bỏ xa đối thủ gần nhất là Claude Opus 4.6 với 68,8%.

Trong nhiệm vụ lập trình tự động, vốn là thế mạnh truyền thống của các đối thủ, Gemini 3.1 Pro cũng gây ấn tượng mạnh. Gemini 3.1 Pro đạt 80,6% trên SWE-Bench Verified (agentic coding), xếp thứ 2 sau Claude Opus 4.6 (80.8%).

Agentic coding là khả năng của AI tự hoạt động như lập trình viên tự động, có thể tự viết, sửa, kiểm tra và hoàn thiện mã để đạt được một mục tiêu, thay vì chỉ tạo ra đoạn mã đơn lẻ khi được yêu cầu.

Nói đơn giản, agentic coding đồng nghĩa AI không chỉ viết mã theo lệnh, mà có thể tự suy nghĩ và thực hiện nhiều bước như lập trình viên thật.

Với bài kiểm tra Terminal-Bench 2.0 Agentic (agentic terminal coding), Gemini 3.1 Pro dẫn đầu khi đạt 68,5%.

Agentic terminal coding là khả năng AI hoạt động như lập trình viên thật trong môi trường terminal (dòng lệnh), có thể tự thực hiện nhiều bước liên tiếp để hoàn thành nhiệm vụ lập trình phức tạp.

Nói đơn giản, AI có thể “ngồi trước máy tính”, dùng dòng lệnh như con người và tự xử lý công việc từ đầu đến cuối.

Trên APEX-Agents, bài kiểm tra đánh giá khả năng thực hiện các nhiệm vụ chuyên nghiệp nhiều bước, Gemini 3.1 Pro đạt 33,5%, gần gấp đôi mức 18,4% của Gemini 3 Pro, đồng thời vượt xa GPT-5.2 (23,0%) và Claude Opus 4.6 (29,8%).

APEX-Agents là bài kiểm tra dùng để đo khả năng của mô hình trong việc hoạt động như tác tử AI - tự động thực hiện các nhiệm vụ phức tạp kéo dài nhiều bước, tương tự cách con người làm việc trong môi trường thực tế. Nói đơn giản, APEX-Agents kiểm tra xem AI có thể tự lập kế hoạch, sử dụng công cụ và hoàn thành các công việc dài hạn hay không, thay vì chỉ trả lời một câu hỏi đơn lẻ.

Gemini 3.1 Pro không chỉ giỏi trả lời câu hỏi hay giải bài kiểm tra lý thuyết, mà còn đặc biệt mạnh ở các bài đánh giá khả năng hoạt động như một tác tử AI.

Ba bài kiểm tra mà Gemini 3.1 Pro dẫn đầu tuyệt đối:

MCP Atlas (69,2%): Khả năng xử lý quy trình nhiều bước và sử dụng công cụ theo chuẩn MCP (Model Context Protocol). MCP là giao thức tiêu chuẩn cho phép mô hình AI kết nối, sử dụng các công cụ, dữ liệu và phần mềm bên ngoài một cách thống nhất và an toàn.

BrowseComp (85,9%): Khả năng tìm kiếm, duyệt web, phân tích thông tin rồi tổng hợp kết quả.

t2-bench Telecom (99,3%): Khả năng sử dụng công cụ trong các tình huống thực tế của ngành viễn thông.

Gemini 3.1 Pro giúp Google dẫn đầu trong cuộc đua mô hình AI - Ảnh: MTG

Gemini 3.1 Pro giúp Google dẫn đầu trong cuộc đua mô hình AI - Ảnh: MTG

Những lĩnh vực mà Claude Sonnet 4.6, Claude Opus 4.6, GPT-5.3-Codex vượt Gemini 3.1 Pro

Kết quả trên không phải là chiến thắng tuyệt đối của Google trong mọi lĩnh vực. Claude Sonnet 4.6 đạt ngang điểm với Gemini 3.1 Pro trong MRCR v2 - bài kiểm tra về xử lý ngữ cảnh dài. Cả hai cùng đạt 84,9% trong bài kiểm tra trung bình 128.000 token.

Claude Sonnet 4.6 dẫn đầu bài kiểm tra GDPval-AA Elo dành cho các nhiệm vụ chuyên gia, với điểm số 1633, cao hơn đáng kể so với 1317 của Gemini 3.1 Pro.

GDPval-AA Elo là chỉ số dùng để đo và xếp hạng khả năng của các mô hình AI trong việc thực hiện các nhiệm vụ chuyên gia nhiều bước trong môi trường thực tế. Chỉ số này được phát triển bởi tổ chức nghiên cứu độc lập Artificial Analysis và sử dụng hệ thống điểm Elo, cùng loại hệ thống xếp hạng dùng trong cờ vua, để so sánh trực tiếp hiệu năng giữa các mô hình AI.

Claude Opus 4.6 vượt nhẹ Gemini 3.1 Pro trong hạng mục Humanity’s Last Exam có sử dụng công cụ, đạt 53,1% so với 51,4%. Humanity’s Last Exam là bài kiểm tra tiêu chuẩn cực khó được thiết kế để đo lường giới hạn trí tuệ của các mô hình AI hiện đại.

Dù Gemini 3.1 Pro dẫn đầu hầu hết benchmark, GPT-5.3-Codex vẫn thể hiện ưu thế rõ rệt trong một số bài kiểm tra lập trình chuyên sâu, đặc biệt là các nhiệm vụ liên quan đến môi trường terminal và sửa lỗi phần mềm thực tế.

Trên benchmark SWE-Bench Pro (Public), đánh giá khả năng sửa lỗi và hoàn thiện mã nguồn trong các dự án phần mềm thực tế, GPT-5.3-Codex đạt điểm 56,8%, cao hơn Gemini 3.1 Pro với 54,2%. Khoảng cách này tuy không lớn nhưng cho thấy GPT-5.3-Codex có lợi thế nhất định trong việc xử lý các tình huống lập trình phức tạp trong môi trường thực tế, nơi AI phải hiểu mã nguồn lớn, xác định lỗi và đưa ra bản sửa chính xác.

Sự khác biệt còn rõ hơn trong Terminal-Bench 2.0, bài kiểm tra đo khả năng lập trình trực tiếp trong môi trường terminal, nơi AI phải sử dụng các lệnh hệ thống, chỉnh sửa file và thực hiện quy trình phát triển phần mềm giống lập trình viên làm việc trên máy tính.

Trong hạng mục other best self-reported harness, GPT-5.3-Codex đạt 77,3%, vượt đáng kể so với Gemini 3.1 Pro ở mức 68,5%. Điều này cho thấy GPT-5.3-Codex hiện có lợi thế đáng kể trong các tác vụ lập trình cấp thấp và tương tác trực tiếp với hệ thống, một lĩnh vực đòi hỏi khả năng hiểu sâu về môi trường phát triển phần mềm và quy trình thực thi lệnh.

Other best self-reported harness là điểm kiểm tra tiêu chuẩn cao nhất mà nhà phát triển mô hình tự công bố, sử dụng môi trường chạy thử nghiệm (harness) được tối ưu riêng cho mô hình AI đó.

Gemini 3.1 Pro bắt đầu được triển khai

Kể từ hôm 20.2, Gemini 3.1 Pro bắt đầu được triển khai từng bước trên toàn bộ hệ sinh thái của Google.

Các nhà phát triển có thể truy cập bản xem trước thông qua Gemini API trong Google AI Studio, Gemini CLI, nền tảng phát triển tác tử AI Google Antigravity và Android Studio.

Khách hàng doanh nghiệp có thể sử dụng mô hình AI mới của Google thông qua Vertex AI và Gemini Enterprise.

Trong khi đó, người dùng phổ thông có thể truy cập trực tiếp Gemini 3.1 Pro qua ứng dụng Gemini và NotebookLM.

Ý nghĩa với ngành công nghiệp AI

Việc ra mắt Gemini 3.1 Pro nhiều khả năng sẽ làm gia tăng cạnh tranh giữa ba phòng thí nghiệm AI hàng đầu thế giới là Google DeepMind, Anthropic và OpenAI. Tất cả đều đã phát hành các mô hình AI chủ lực mạnh mẽ gần đây.

Việc dẫn đầu các bài kiểm tra tiêu chuẩn đã trở thành yếu tố quan trọng trong việc cạnh tranh và tiếp thị các sản phẩm AI cho khách hàng doanh nghiệp. Google chắc chắn sẽ tận dụng các kết quả này để thu hút khách hàng.

Google dẫn đầu trong cuộc đua mô hình AI

Gemini 3.1 Pro cho thấy Google tiếp tục đổi mới mạnh mẽ trong lĩnh vực AI.

Trình làng hồi tháng 3.2025, Gemini 2.5 Pro là mô hình AI đầu tiên từ Google thu hút mạnh sự chú ý của cộng đồng lập trình viên. Đến tháng 11.2025, Gemini 3 Pro ra mắt và vượt qua nhiều đối thủ trong các bài kiểm tra quan trọng.

Song sau đó, Anthropic đã giới thiệu Opus 4.5, còn OpenAI phát hành GPT-5.2. Cả hai đều vượt Gemini 3 Pro trong hầu hết bài kiểm tra.

Ngày 19.2, Gemini 3.1 Pro ra mắt, giúp Google vượt OpenAI và Anthropic để trở lại vị trí dẫn đầu.

Dựa trên xu hướng trong năm qua, nhiều khả năng OpenAI và Anthropic sẽ sớm phát hành mô hình AI mạnh mẽ hơn Gemini 3.1 Pro.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/gemini-3-1-pro-dan-dau-11-16-bai-kiem-tra-giup-google-vuot-openai-va-anthropic-246484.html