GPT-5.4: Mô hình AI đầu tiên của OpenAI có thể sử dụng máy tính nhuần nhuyễn

OpenAI vừa ra mắt GPT-5.4, mô hình AI mới nhất mà công ty cho biết kết hợp các tiến bộ về suy luận, lập trình và các công việc chuyên môn liên quan đến bảng tính, tài liệu, bài thuyết trình.

Đây cũng là mô hình AI đầu tiên của OpenAI có khả năng sử dụng máy tính một cách tự nhiên, nghĩa là tự vận hành máy tính thay cho người dùng và hoàn thành các tác vụ trên nhiều ứng dụng khác nhau.

GPT-5.4 là bước tiến hướng tới tương lai agentic AI (AI có tính tự chủ) mà các công ty đang cố gắng xây dựng - nơi một mạng lưới các tác tử AI hoạt động ở hậu trường để hoàn thành những công việc phức tạp trên internet và trong phần mềm.

OpenAI đã giới thiệu ChatGPT Agent trong bối cảnh hàng loạt tác tử AI xuất hiện năm ngoái, cho phép AI kiểm soát máy tính của người dùng để thực hiện các nhiệm vụ, chẳng hạn tìm kiếm và mua nguyên liệu cho một bữa ăn.

Trong khi đưa GPT-5.4 vào API (giao diện lập trình ứng dụng) và công cụ lập trình AI Codex, OpenAI cũng triển khai mô hình suy luận GPT-5.4 Thinking cho ChatGPT. OpenAI cho biết GPT-5.4 có thể viết mã để vận hành máy tính, đồng thời thực hiện các lệnh bàn phím và chuột dựa trên ảnh chụp màn hình.

Ngoài ra, GPT-5.4 được cải thiện khi sử dụng trình duyệt web, cũng như khả năng gọi các công cụ và API chính xác, hiệu quả hơn để hoàn thành nhiệm vụ.

Mô hình AI này xử lý tốt hơn các câu hỏi đòi hỏi phải thu thập thông tin từ nhiều nguồn khác nhau. OpenAI cho biết GPT-5.4 “có thể kiên trì tìm kiếm qua nhiều vòng để xác định những nguồn liên quan nhất, rồi tổng hợp chúng thành câu trả lời rõ ràng và có lập luận chặt chẽ”.

OpenAI khẳng định GPT-5.4 là “mô hình AI có độ chính xác cao nhất từ trước đến nay”, với các phản hồi riêng lẻ ít có khả năng sai lệch hơn 33% so với GPT-5.2.

Trong ChatGPT, GPT-5.4 Thinking sẽ cung cấp bản phác thảo quá trình suy nghĩ của nó cho những truy vấn phức tạp, đồng thời cho phép người dùng điều chỉnh hoặc thay đổi yêu cầu ngay ở quá trình phản hồi. Theo OpenAI, điều này giúp người dùng dễ dàng hướng mô hình AI đến kết quả mong muốn mà không cần bắt đầu lại hoặc phải trao đổi thêm nhiều lượt.

Tính năng này hiện đã có trên phiên bản web của ChatGPT và Android, còn ứng dụng iOS sẽ sớm được cập nhật.

GPT-5.4 đang được triển khai trên ChatGPT, Codex và API, trong đó phiên bản GPT-5.4 Thinking dành cho người dùng Plus, Team và Pro.

Chưa hết, OpenAI còn giới thiệu GPT-5.4 Pro, phiên bản được thiết kế để đạt hiệu năng tối đa cho các tác vụ phức tạp, được triển khai trong API cũng như cho người dùng ChatGPT Enterprise và Edu.

GPT-5.4 có khả năng tự vận hành máy tính thay cho người dùng và hoàn thành các tác vụ trên nhiều ứng dụng khác nhau - Ảnh: OpenAI

GPT-5.4 có khả năng tự vận hành máy tính thay cho người dùng và hoàn thành các tác vụ trên nhiều ứng dụng khác nhau - Ảnh: OpenAI

OpenAI nói gì về GPT-5.4?

Bên dưới là bài viết trên trang web OpenAI về những cải tiến của GPT-5.4:

Hôm nay, chúng tôi ra mắt GPT-5.4 trong ChatGPT (dưới dạng GPT-5.4 Thinking), API và Codex. Đây là mô hình tiên tiến nhất của chúng tôi cho công việc chuyên nghiệp. Chúng tôi cũng phát hành GPT-5.4 Pro trong ChatGPT và API, dành cho những người cần hiệu năng tối đa trong các nhiệm vụ phức tạp.

GPT-5.4 kết hợp những tiến bộ mới nhất của chúng tôi về suy luận, lập trình và các quy trình làm việc dạng tự chủ trong một mô hình tiên tiến duy nhất. Nó tích hợp khả năng lập trình hàng đầu ngành của GPT-5.3-Codex, đồng thời cải thiện cách mô hình làm việc với các công cụ, môi trường phần mềm và các nhiệm vụ chuyên môn liên quan đến bảng tính, bài thuyết trình và tài liệu. Kết quả là một mô hình có thể hoàn thành những công việc thực tế phức tạp một cách chính xác, hiệu quả và nhanh chóng, cung cấp đúng những gì người dùng yêu cầu với ít trao đổi qua lại hơn.

Trong ChatGPT, GPT-5.4 Thinking giờ đây có thể đưa ra kế hoạch suy nghĩ ngay từ đầu, cho phép người dùng điều chỉnh hướng đi ngay trong lúc mô hình đang phản hồi, từ đó đạt được kết quả cuối cùng phù hợp hơn với nhu cầu mà không cần thêm nhiều lượt trao đổi.

GPT-5.4 Thinking cũng cải thiện khả năng nghiên cứu sâu trên web, đặc biệt là với các truy vấn rất cụ thể, đồng thời duy trì ngữ cảnh tốt hơn với các câu hỏi đòi hỏi suy nghĩ dài hơn. Những cải tiến này giúp câu trả lời có chất lượng cao hơn, đến nhanh hơn và phù hợp hơn với nhiệm vụ đang thực hiện.

Trong Codex và API, GPT-5.4 là mô hình đa dụng đầu tiên của chúng tôi có khả năng sử dụng máy tính một cách tự nhiên với công nghệ tiên tiến nhất, cho phép các tác tử AI vận hành máy tính và thực hiện quy trình công việc phức tạp trên nhiều ứng dụng khác nhau. GPT-5.4 hỗ trợ tối đa 1 triệu token ngữ cảnh, giúp các tác tử AI lập kế hoạch, thực thi và kiểm chứng nhiệm vụ trong các chuỗi công việc dài.

GPT-5.4 cũng cải thiện cách mô hình làm việc trong hệ sinh thái lớn gồm nhiều công cụ và kết nối, thông qua tính năng tool search, giúp các tác tử AI tìm và sử dụng đúng công cụ hiệu quả hơn mà không làm giảm khả năng suy luận. Cuối cùng, GPT-5.4 là mô hình suy luận tiết kiệm token nhất của chúng tôi cho đến nay, sử dụng ít token hơn đáng kể so với GPT-5.2 để giải quyết vấn đề, nhờ đó giảm chi phí và tăng tốc độ xử lý.

Nhờ những tiến bộ trong suy luận tổng quát, lập trình và công việc tri thức chuyên môn, GPT-5.4 cho phép xây dựng các tác tử AI đáng tin cậy hơn, quy trình phát triển nhanh hơn cho lập trình viên, và đầu ra chất lượng cao hơn trên ChatGPT, API và Codex.

Trong các đánh giá benchmark (bài kiểm tra chuẩn hóa), GPT-5.4 vượt trội so với các phiên bản trước. Trên GDPval, bài kiểm tra khả năng thực hiện công việc tri thức, GPT-5.4 đạt 83%, so với 70,9% của GPT-5.2.

Trên SWE-Bench Pro, GPT-5.4 đạt 57,7%, cao hơn GPT-5.2 (55,6%).

Trên OSWorld-Verified, bài kiểm tra khả năng điều khiển máy tính, GPT-5.4 đạt 75%, vượt xa GPT-5.2 (47,3%).

Trên Toolathlon, GPT-5.4 đạt 54,6%, so với 46,3% của GPT-5.2.

Trên BrowseComp, bài kiểm tra khả năng tìm kiếm và tổng hợp thông tin, GPT-5.4 đạt 82,7%, cao hơn nhiều so với 65,8% của GPT-5.2.

Bảng so sánh hiệu năng ba mô hình AI của OpenAI trên nhiều bài kiểm tra khác nhau

Bảng so sánh hiệu năng ba mô hình AI của OpenAI trên nhiều bài kiểm tra khác nhau

Công việc tri thức

Dựa trên khả năng suy luận tổng quát của GPT-5.2, GPT-5.4 mang lại kết quả ổn định và hoàn thiện hơn cho các nhiệm vụ thực tế quan trọng đối với giới chuyên môn.

Trong GDPval, bài kiểm tra đánh giá khả năng của các tác tử AI trong việc tạo ra các sản phẩm công việc tri thức được mô tả rõ ràng thuộc 44 nghề nghiệp khác nhau, GPT-5.4 đạt kỷ lục mới, bằng hoặc vượt các chuyên gia trong ngành ở 83% các trường hợp so sánh, so với 70,9% của GPT-5.2.

GDPval gồm các nhiệm vụ công việc thực tế như tạo bài thuyết trình bán hàng, bảng tính kế toán, lịch làm việc cho phòng khám, sơ đồ sản xuất hoặc video ngắn. Trong các thử nghiệm này, mức suy luận của GPT-5.4 được đặt ở xhigh (rất cao), còn GPT-5.2 ở mức heavy (cao).

Brendan Foody, CEO của Mercor, nhận xét: “GPT-5.4 là mô hình tốt nhất mà chúng tôi từng thử nghiệm. Nó hiện đứng đầu bảng xếp hạng trong benchmark APEX-Agents của chúng tôi, dùng để đo hiệu suất của mô hình trong các dịch vụ chuyên nghiệp. Nó đặc biệt xuất sắc trong việc tạo các sản phẩm công việc dài hạn như slide thuyết trình, mô hình tài chính và phân tích pháp lý, đồng thời chạy nhanh hơn và chi phí thấp hơn so với các mô hình frontier cạnh tranh”.

OpenAI cũng đặc biệt tập trung cải thiện khả năng của GPT-5.4 trong việc tạo và chỉnh sửa bảng tính, bài thuyết trình và tài liệu. Trong một benchmark nội bộ về mô hình hóa bảng tính giống như công việc của một nhà phân tích ngân hàng đầu tư cấp thấp, GPT-5.4 đạt 87,3% điểm trung bình, so với 68,4% của GPT-5.2.

Trong đánh giá về bài thuyết trình, người chấm điểm ưa thích các bài trình bày do GPT-5.4 tạo ra trong 68% trường hợp, nhờ thẩm mỹ tốt hơn, đa dạng hình ảnh hơn và sử dụng tạo ảnh hiệu quả hơn.

Để GPT-5.4 hoạt động tốt hơn trong công việc thực tế, OpenAI cũng tiếp tục giảm tình trạng ảo giác và lỗi thông tin. GPT-5.4 là mô hình chính xác nhất từ trước đến nay của OpenAI.

Trong một tập hợp câu hỏi mà người dùng trước đó đã đánh dấu có lỗi thực tế, các phản hồi riêng lẻ của GPT-5.4 ít có khả năng sai hơn 33%, và toàn bộ câu trả lời ít có khả năng chứa lỗi hơn 18% so với GPT-5.2.

Sử dụng máy tính và thị giác

GPT-5.4 là mô hình đa dụng đầu tiên của OpenAI có khả năng sử dụng máy tính một cách tự nhiên, đánh dấu bước tiến lớn cho cả nhà phát triển và các tác tử AI. Đây hiện là mô hình tốt nhất dành cho các nhà phát triển xây dựng tác tử AI có thể thực hiện nhiệm vụ thực tế trên website và hệ thống phần mềm.

Mô hình được thiết kế để hoạt động hiệu quả trong nhiều loại nhiệm vụ sử dụng máy tính. GPT-5.4 rất giỏi viết mã để điều khiển máy tính thông qua các thư viện như Playwright, đồng thời có thể thực hiện các lệnh chuột và bàn phím dựa trên ảnh chụp màn hình. Hành vi của mô hình có thể được điều chỉnh thông qua các thông điệp của lập trình viên, cho phép tùy chỉnh theo từng trường hợp sử dụng. Các nhà phát triển cũng có thể thiết lập chính sách xác nhận tùy chỉnh để điều chỉnh mức độ an toàn theo nhu cầu.

Trên OSWorld-Verified - bài kiểm tra khả năng điều hướng môi trường máy tính để bàn thông qua ảnh chụp màn hình và hành động bằng chuột/bàn phím, GPT-5.4 đạt tỷ lệ thành công 75%, vượt xa 47,3% của GPT-5.2 và thậm chí cao hơn mức trung bình của con người (72,4%).

Trên WebArena-Verified - bài kiểm tra sử dụng trình duyệt, GPT-5.4 đạt 67,3%, cao hơn GPT-5.2 (65,4%).

Trên Online-Mind2Web, GPT-5.4 đạt 92,8% khi chỉ quan sát từ ảnh chụp màn hình, vượt xa 70,9% của chế độ Agent trong ChatGPT Atlas.

Khả năng sử dụng máy tính của GPT-5.4 được xây dựng trên khả năng nhận thức thị giác tốt hơn. Trong bài kiểm tra MMMU-Pro về hiểu và suy luận từ hình ảnh, GPT-5.4 đạt 81,2%, so với 79,5% của GPT-5.2. Khả năng thị giác tốt hơn cũng giúp phân tích tài liệu hiệu quả hơn.

Trên OmniDocBench, GPT-5.4 có mức lỗi trung bình 0,109, cải thiện so với 0,140 của GPT-5.2.

OpenAI cũng nâng cấp khả năng hiểu hình ảnh độ phân giải cao. GPT-5.4 hỗ trợ mức chi tiết original image input detail, cho phép xử lý hình ảnh với tối đa 10,24 triệu pixel hoặc chiều tối đa 6.000 pixel.

Trong thử nghiệm ban đầu với người dùng API, OpenAI ghi nhận cải thiện đáng kể về khả năng xác định vị trí, hiểu hình ảnh và độ chính xác khi nhấp chuột.

Lập trình

GPT-5.4 kết hợp sức mạnh lập trình của GPT-5.3-Codex với khả năng công việc tri thức và sử dụng máy tính, đặc biệt hữu ích trong các nhiệm vụ dài hạn nơi mô hình có thể dùng công cụ, lặp lại và tiếp tục phát triển công việc với ít can thiệp thủ công. Trên SWE-Bench Pro, GPT-5.4 bằng hoặc vượt GPT-5.3-Codex, đồng thời độ trễ thấp hơn ở nhiều mức suy luận.

Trong Codex, khi bật chế độ /fast, GPT-5.4 có thể đạt tốc độ xử lý token nhanh hơn tới 1,5 lần. Điều này giúp người dùng lập trình, thử nghiệm và gỡ lỗi nhanh hơn mà không bị gián đoạn luồng làm việc. Các nhà phát triển cũng có thể đạt tốc độ tương tự thông qua xử lý ưu tiên trong API.

Trong các thử nghiệm nội bộ, GPT-5.4 đặc biệt xuất sắc trong các nhiệm vụ frontend phức tạp, tạo ra giao diện đẹp hơn và chức năng tốt hơn so với các mô hình trước đây.

Nhiệm vụ frontend là các công việc liên quan đến phần giao diện mà người dùng trực tiếp nhìn thấy và tương tác trên website hoặc ứng dụng

Để minh họa cho sự kết hợp giữa khả năng lập trình và sử dụng máy tính, OpenAI cũng phát hành một kỹ năng Codex thử nghiệm mang tên Playwright (Interactive), cho phép Codex gỡ lỗi trực quan các ứng dụng web và Electron, thậm chí kiểm thử ứng dụng ngay trong quá trình nó đang được xây dựng.

Electron là một framework mã nguồn mở dùng để xây dựng ứng dụng desktop (máy tính) bằng công nghệ web. Nó cho phép lập trình viên dùng các công nghệ quen thuộc như HTML, CSS và JavaScript để tạo ra ứng dụng chạy trên Windows, macOS và Linux.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/gpt-5-4-mo-hinh-ai-dau-tien-cua-openai-co-the-su-dung-may-tinh-nhuan-nhuyen-247129.html