Các nhà nghiên cứu của Apple chê mô hình AI từ OpenAI và Anthropic

3 giờ trước Gốc

Các nhà nghiên cứu của Apple đã công bố một báo cáo cho rằng các mô hình hiện tại từ OpenAI và Anthropic chỉ hoạt động đáng tin cậy trong các bài kiểm tra chuẩn (benchmarks) nhưng lại thất bại thảm hại trong các tác vụ thực tế.

Ngày càng có nhiều công ty AI tập trung vào các mô hình suy luận mà được cho là có khả năng thực hiện các quá trình tư duy phức tạp. Nhưng ngay cả OpenAI gần đây cũng phải thừa nhận rằng các mô hình của họ đang "ảo giác" (hallucinating) thường xuyên hơn trước đây nhờ công nghệ mới.

Chatbot các hãng đang có cuộc cạnh tranh quyết liệt

Theo một bài báo mới của các nhà nghiên cứu Apple, khả năng suy luận có thể gặp vấn đề lớn hơn nữa. Họ cho rằng đó chỉ là một mánh khóe tiếp thị lớn.

Nơi ChatGPT, Deepseek và Claude gặp vấn đề

Để tìm hiểu, các nhà nghiên cứu đã đưa ra một số câu đố toán học cho các mô hình AI nổi tiếng. Các mô hình được thử nghiệm bao gồm o3 mini của OpenAI, Deepseek-R1 và Claude 3.7 Sonnet. Kết quả của chế độ AI thông thường và chế độ suy luận đã được so sánh.

Ban đầu, các nhà nghiên cứu Apple nhận thấy rằng các mô hình không sử dụng suy luận hoạt động tương tự hoặc thậm chí tốt hơn so với các đối tác "có tư duy" của chúng trong các tác vụ dễ hơn. Chỉ trên các tác vụ có độ khó vừa phải, họ mới thấy rằng các mô hình suy luận có thể đạt được lợi thế.

Tuy nhiên, trên các tác vụ khó và phức tạp, tất cả các mô hình đều giảm hiệu suất. Chúng gần như không thể giải quyết được bất kỳ tác vụ nào trong số các tác vụ khó hơn trong các thử nghiệm.

Thất bại ở mức độ khó cao

Điều này đúng ngay cả khi các mô hình được cung cấp thuật toán giải pháp cho câu đố tương ứng. Các mô hình cũng gặp khó khăn trong việc duy trì các đường dẫn suy luận và giải pháp của chúng trên nhiều câu đố, ngay cả khi chúng chính xác.

Các nhà nghiên cứu viết về những phát hiện của mình: "Mặc dù có các cơ chế tự phản ánh tinh vi, nhưng các mô hình này không thể phát triển các kỹ năng suy luận tổng quát vượt quá một mức độ khó nhất định".

Các nhà nghiên cứu Apple hy vọng kết quả của họ sẽ thúc đẩy sự phát triển hơn nữa của các mô hình suy luận: "Những phát hiện này thách thức các giả định hiện tại về khả năng của các mô hình suy luận và cho thấy rằng các phương pháp tiếp cận hiện tại có thể đã gặp phải một trở ngại cơ bản".

Tuy nhiên, họ thừa nhận rằng thử nghiệm của họ có những hạn chế. Các tác vụ giải đố chỉ đại diện cho "một tập hợp con nhỏ của các tác vụ suy luận."

Anh Tú