Apple dội gáo nước lạnh vào AI suy luận

11/6/2025 Gốc

Nghiên cứu mới của Apple chứng minh sự kém hiệu quả của các mô hình suy luận. Tuy nhiên, chuyên gia cho rằng phát hiện này không thực sự mới.

Nghiên cứu mới của Apple về mô hình suy luận lớn gây chú ý. Ảnh: Macrumors.

Chỉ sau 3 năm ra mắt, trí tuệ nhân tạo đã bắt đầu có mặt trong nhiều hoạt động hàng ngày như học tập và làm việc. Nhiều người lo sợ rằng không lâu sau chúng sẽ đủ khả năng để thay thế con người.

Tuy nhiên, các mô hình AI mới hiện nay thực ra không thông minh như chúng ta vẫn tưởng. Phát hiện từ một tập đoàn công nghệ lớn đã góp phần củng cố niềm tin này.

AI cũng biết "khó quá bỏ qua"

Trong một nghiên cứu có tên “Tư duy ảo tưởng” mới xuất bản, nhóm nghiên cứu của Apple khẳng định rằng các mô hình suy luận như Claude, DeepSeek-R1 và o3-mini thực chất không hề “động não” như tên gọi.

Từ suy luận nên được thay lại bằng “bắt chước”. Nhóm cho rằng những mô hình này chỉ đơn giản là ghi nhớ và lặp lại khuôn mẫu (pattern) một cách hiệu quả. Nhưng khi câu hỏi được thay đổi hoặc độ phức tạp tăng lên, chúng gần như ngã chồng lên nhau.

Đơn giản hơn, chatbot hoạt động tốt khi chúng có thể nhận diện và khớp mẫu, nhưng một khi đề bài trở nên quá phức tạp, chúng sẽ không thể xử lý được. “Mô hình suy luận tiên tiến (Large Reasoning Models - LRM) gặp phải hiện tượng sụp đổ hoàn toàn về yếu tố chính xác khi độ phức tạp vượt qua một ngưỡng nhất định”, nghiên cứu nhấn mạnh.

Điều này đi ngược với kỳ vọng của nhà phát triển, cho rằng vấn đề phức tạp sẽ được giải quyết khi càng có nhiều tài nguyên. “Nỗ lực suy luận của AI sẽ tăng lên theo độ phức tạp, nhưng chỉ đến một mức nào đó, rồi lại giảm dần, dù vẫn còn đủ ngân sách token (khả năng tính toán) để xử lý”, nghiên cứu bổ sung.

Trong nghiên cứu này, các nhà khoa học đã thay đổi hoàn toàn kiểu câu hỏi mô hình suy luận thường được dùng để trả lời. Thay vì cho kiểm tra toán học quen thuộc, họ đưa vào những trò chơi giải đố được thiết kế khéo léo như Tháp Hà Nội (Tower of Hanoi), Nhảy quân (Checker Jumping), Vượt sông (River Crossing), và Thế giới khối hộp (Blocks World).

Mỗi trò chơi giải đố đều có luật đơn giản và rõ ràng, có đa dạng mức độ phức tạp, chẳng hạn như thêm nhiều đĩa, khối, tác nhân hơn. Mô hình suy luận hoạt động ổn hơn ở mức độ trung bình, nhưng thua phiên bản thông thường ở mức độ dễ. Đáng chú ý là, mọi thứ sụp đổ hoàn toàn ở mức độ khó, giống như AI đã bỏ cuộc.

Trong phần giải trò Tháp Hà Nội, nhóm thực hiện dù đã “mớm” thuật toán giải bài, hiệu suất của mô hình suy luận cũng không cải thiện mấy. Một vài mô hình có thể làm tốt trò chơi trên đến 100 màn, nhưng chỉ có thể vượt qua 5 bước một cách chưa hoàn thiện trong bài toán Qua sông.

Với tháp Hà Nội, người chơi cần di chuyển và đặt lại vị trí các vòng tròn theo thứ tự kích thước. Ảnh: Wikipedia.

Điều này chỉ ra hiệu quả suy luận kém, cũng như mức độ ổn định kém của các mô hình LRM. Giữa lúc nhiều tranh luận xoay quanh năng lực của AI đã có thể sánh ngang với con người, nghiên cứu mới của Apple này đã chứng minh điều ngược lại.

Phát hiện của Apple không mới

Gary Marcus, nhà tâm lý học và tác giả sách người Mỹ, cho rằng phát hiện của Apple khá ấn tượng, nhưng không thật sự mới mà chỉ củng cố cho các nghiên cứu trước. Giáo sư danh dự ngành tâm lý học và khoa học thần kinh tại Đại học New York lấy ví dụ nghiên cứu năm 1998 của mình.

Trong đó, ông cho rằng mạng nơ-ron, tiền thân của mô hình ngôn ngữ lớn, có thể khái quát tốt trong phạm vi phân phối dữ liệu chúng đã được huấn luyện, nhưng thường sụp đổ khi gặp dữ liệu ngoài phân phối.

Ông cũng trích dẫn lập luận từ nhà khoa học máy tính Subbarao Kambhampati của Đại học Bang Arizona trong vài năm gần đây. Giáo sư Rao tin rằng “chuỗi suy nghĩ” và “mô hình suy luận” vốn không đáng tin như nhiều người vẫn tưởng.

“Con người có xu hướng nhân hóa quá mức dấu vết suy luận của mô hình ngôn ngữ lớn LLM, gọi đó là "suy nghĩ" trong khi có thể chúng không xứng đáng với cái tên ấy”, giáo sư cho biết. Ông cũng viết hàng loạt bài báo về chuỗi suy nghĩ LLM tạo ra không phải lúc nào cũng phản ánh đúng những gì chúng thực sự làm.

Nghiên cứu mới của Apple cho thấy ngay cả những mô hình suy luận thế hệ mới nhất vẫn không đáng tin cậy ngoài phạm vi dữ liệu huấn luyện. Ông Marcus cho rằng mô hình LLM hay LRM đều có ứng dụng riêng, và hữu ích trong vài trường hợp. Tuy nhiên, người dùng không nên tin bất cứ kết quả nào từ chúng.

Nhật Tường

Nguồn Znews: https://znews.vn/nhom-cua-apple-doi-gao-nuoc-lanh-vao-ai-suy-luan-post1559526.html