Đo năng lực AI bằng cách 'phá đảo' trò Super Mario

12 giờ trước Gốc

Nếu bạn từng nghĩ Pokémon là một thử thách khó nhằn đối với AI, một nhóm nghiên cứu mới đây đã khẳng định rằng Super Mario Bros thậm chí còn khó hơn.

AI ssẽ tạo ra các đầu vào điều khiển Mario dưới dạng mã Python. Ảnh: TechCrunch.

Phòng thí nghiệm Hao AI tại Đại học California San Diego đã quyết định kiểm tra khả năng của các mô hình trí tuệ nhân tạo bằng cách ném chúng vào thế giới của Super Mario. Theo kết quả thử nghiệm, Claude 3.7 của Anthropic có màn thể hiện tốt nhất, tiếp theo là Claude 3.5. Trong khi đó, Gemini 1.5 Pro của Google và GPT-4o của OpenAI gặp nhiều khó khăn hơn trong trò chơi này.

Tuy nhiên, phiên bản Super Mario Bros AI trải nghiệm không hoàn toàn giống với bản gốc ra mắt năm 1985. Trò chơi chạy trong một trình giả lập và được tích hợp với nên tảng đặc biệt tên GamingAgent, giúp các mô hình AI điều khiển nhân vật Mario.

GamingAgent được Hao Lab phát triển nội bộ. Nó cung cấp cho AI các hướng dẫn cơ bản như: "Nếu có chướng ngại vật hoặc kẻ thù ở gần, di chuyển/nhảy sang trái để tránh" cùng với ảnh chụp màn hình trong trò chơi. Dựa vào những thông tin này, AI sẽ tạo ra các lệnh điều khiển Mario bằng mã Python.

So sánh khả năng chơi Super Mario của 4 mô hình. Ảnh: Hao AI Lab.

Dù vậy, trò chơi vẫn buộc mỗi mô hình AI phải "học" cách lập kế hoạch cho các động tác phức tạp và phát triển chiến lược chơi game, theo Hao Lab. Các nhà nghiên cứu nhận thấy rằng những mô hình có khả năng suy luận, như OpenAI o1 vốn nổi tiếng với cách tiếp cận từng bước để giải quyết vấn đề, lại có màn thể hiện kém hơn so với các mô hình "không suy luận”. Trong khi đó, chúng thường vượt trội trên hầu hết bài kiểm tra AI thông thường.

Một trong những lý do chính khiến các mô hình suy luận gặp khó khăn với trò chơi theo thời gian thực như Super Mario Bros là chúng mất quá nhiều thời gian thường vài giây để đưa ra quyết định hành động. Trong khi đó, ở Super Mario Bros, yếu tố thời gian là tất cả. Chỉ một giây chậm trễ có thể là ranh giới giữa việc nhảy qua chướng ngại vật an toàn hay rơi xuống vực sâu.

Theo TechCrunch, các trò chơi điện tử đã được sử dụng để đánh giá khả năng của AI trong nhiều thập kỷ. Tuy nhiên, một số chuyên gia đang đặt câu hỏi về tính hợp lý của việc sử dụng khả năng chơi game để đánh giá sự tiến bộ của công nghệ AI. Không giống như thế giới thực, trò chơi thường mang tính trừu tượng, có quy tắc đơn giản hơn và cung cấp một lượng dữ liệu gần như vô hạn để AI học hỏi.

Những bài kiểm tra AI dựa trên trò chơi ngày càng phổ biến gần đây đang dẫn đến một hiện tượng được Andrej Karpathy gọi là "khủng hoảng đánh giá”. Andrej Karpathy là nhà khoa học nghiên cứu và là thành viên sáng lập của OpenAI,

"Tôi thực sự không biết nên nhìn vào chỉ số nào của AI lúc này. Tóm lại, phản ứng của tôi là tôi không thực sự biết những mô hình này đang ở mức độ tốt như thế nào”, Karpathy viết trong một bài đăng trên X.

Thúy Liên

Nguồn Znews: https://znews.vn/do-nang-luc-ai-bang-cach-choi-super-mario-post1535608.html