Bài toán cực kỳ đơn giản khiến AI gặp khó

19/7/2024 Gốc

'13,11 lớn hơn 13,8', '9,11 lớn hơn 9,9' là câu trả lời của các chatbot AI khi được hỏi những phép toán so sánh đơn giản.

Không chỉ một mà rất nhiều chatbot AI sai cùng một bài toàn đơn giản. Ảnh: Shutterstock.

Làn sóng chatbot trí tuệ nhân tạo (AI) được phép sử dụng rộng rãi ở Trung Quốc giúp nhiều người dùng tạo nội dung mới - bao gồm âm thanh, mã code, hình ảnh, video và văn bản đúng ngữ pháp - để giải trí và làm việc.

Nhu cầu này đã dẫn đến sự ra đời của hơn 200 mô hình ngôn ngữ lớn (LLM), nền tảng cho các dịch vụ Generative AI (GenAI) như ChatGPT, tại Trung Quốc. LLM là các thuật toán AI học sâu có thể nhận dạng, tóm tắt, dịch, dự đoán và tạo nội dung bằng cách sử dụng các tập dữ liệu khổng lồ.

Tuy sở hữu nguồn lực lớn, các mô hình AI vẫn gặp khó khăn với kiến thức toán học cơ bản. Cụ thể là trong chương trình thực tế Trung Quốc Singer 2024, một cuộc thi ca hát do Đài truyền hình Hồ Nam sản xuất.

AI kém toán là chuyện phổ biến

Trong chương trình này, nghệ sĩ Sun Nan đã nhận được 13,8% phiếu bầu trực tuyến, vượt qua ca sĩ Mỹ Chanté Moore với 13,11% phiếu bầu. Một số cư dân mạng nước này đã chế nhạo bảng xếp hạng, nói rằng 13,11% lớn hơn 13,8%.

“Hay là hỏi thử AI đi”, một bình luận đề xuất. Cuồi cùng, kết quả họ nhận được thật khó tin.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng cho rằng 13,11 lớn hơn 13,8. Các mô hình AI này đã tự sửa lỗi và xin lỗi sau khi người dùng sử dụng kỹ thuật suy luận xâu chuỗi (Chain of Thought) để dạy lại AI. Trong đó, AI được hướng dẫn từng bước giải quyết một vấn đề, từ đó xử lý và phản hồi một tình huống hoặc bối cảnh mà nó chưa từng gặp trước đó.

Các chatbot AI liên tục trả lời sai những phép toán đơn giản.

Với Qwen LLM của Tập đoàn Alibaba, mô hình này đã sử dụng Trình thông dịch mã Python để tính toán câu trả lời, trong khi Ernie Bot của Baidu phải thực hiện 6 bước để có được câu trả lời chính xác. Ngược lại, Doubao LLM của ByteDance đã trả lời bằng ví dụ: “Nếu bạn có 9,90 USD và 9,11 USD, rõ ràng 9,90 USD nhiều tiền hơn”.

Wu Yiquan, một nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu cho biết: “LLM kém môn toán. Điều này rất phổ biến”.

Theo Wu, GenAI vốn không sở hữu khả năng toán học và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu đào tạo. Ông cho biết một số LLM thực hiện tốt các bài kiểm tra toán có thể do "ô nhiễm dữ liệu", có nghĩa là thuật toán ghi nhớ câu trả lời vì các câu hỏi tương tự từng xuất hiện trong dữ liệu đào tạo của nó.

“Trong thế giới của AI, mọi thứ đều được mã hóa. Các con số, từ, dấu câu và dấu cách đều được xử lý như nhau. Vì vậy, bất kỳ sự thay đổi nào trong câu lệnh đều có thể ảnh hưởng lớn đến kết quả”, Wu nói.

Điểm mù về kiến thức toán học của AI

Bài toán 13,11 lớn hơn 13,8 là một trong “các bài toán thử nghiệm so sánh số” dành cho các mô hình AI và rất nổi tiếng gần đây. Người đầu tiên thực hiện là nhà nghiên cứu Bill Yuchen Lin của Viện Allen và kỹ sư công nghệ Riley Goodside của Scale AI. Họ chỉ ra những điểm mù về kiến thức toán học cơ bản của các AI.

Khi được hỏi 9,9 hay 9,11 lớn hơn, loạt LLM tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet và Mistral AI đều trả lời là 9,11.

Một người dùng đã sử dụng câu hỏi tương tự với Meta AI. Kết quả là chatbot này cũng khẳng định 9,11 lớn hơn 9,9.

Các AI còn lập luận để chứng minh kết quả vô lý của mình.

Sau khi nhận được câu trả lời, người dùng đã hỏi Meta AI một câu hỏi khác: “Tại sao 9,11 lại lớn hơn 9,9?”. Chatbot trả lời rằng 9,9 nhỏ hơn 0,2 đơn vị so với 9,11. Sau đó, người dùng chỉ ra: “Nhưng 9,9 thực ra là 9,90. Vậy không phải nó lớn hơn 9,11 sao?”

Khi đó, AI của Meta mới nhận ra sai lầm của mình và viết: “Bạn hoàn toàn đúng! Tôi xin lỗi. Quả thật 9,9 bằng 9,90. Do đó, 9,9 lớn hơn 9,11. Cảm ơn bạn đã phát hiện ra lỗi này”.

Trong một bài đăng trên X, Goodside cho biết mình không có ý định phá hoại LLM, mà chỉ nhằm mục đích giúp người dùng hiểu và khắc phục lỗi của chúng. Sau nhiều lần thử, ông nhận ra rằng nếu muốn lừa AI, người dùng chỉ cần đặt đáp án trước câu hỏi. Tức là nếu hỏi “9,9 hay 9,11 lớn hơn”, câu trả lời sẽ là 9,9.

“Các vấn đề nổi tiếng trước đây trong LLM (như làm toán kém) hiện đã được giảm thiểu rất tốt. Các lỗi còn lại mới gây sốc cho người dùng. Chúng ta nên giữ tâm lý sẵn sàng khi tình trạng này sẽ còn tiếp tục diễn ra trên nhiều yêu cầu khác”, Goodside nói.

Thúy Liên

Nguồn Znews: https://znews.vn/bai-toan-don-gian-lai-khien-ai-gap-kho-post1487090.html