AI không thể đọc đồng hồ hoặc tính lịch: Lỗ hổng bất ngờ

Một nghiên cứu mới công bố tại Hội nghị quốc tế về biểu diễn học tập (ICLR) 2025 đã tiết lộ một điểm yếu ít ai ngờ tới của các mô hình trí tuệ nhân tạo (AI), đó là khả năng đọc đồng hồ kim và tính toán ngày tháng.

Đây là những kỹ năng cơ bản mà con người học từ rất sớm, nhưng các hệ thống AI tiên tiến nhất hiện nay vẫn chưa thể thực hiện chính xác.

Theo Live Science, trong nghiên cứu được công bố ngày 18.3 trên arXiv, nhóm nghiên cứu đến từ Đại học Edinburgh (Anh) đã thử nghiệm khả năng của các mô hình ngôn ngữ lớn đa phương thức (MLLM), những hệ thống có thể xử lý thông tin trực quan và văn bản. Các mô hình được đưa vào thử nghiệm bao gồm Llama 3.2-Vision (Meta), Claude-3.5 Sonnet (Anthropic), Gemini 2.0 (Google) và GPT-4o (OpenAI).

Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy

Nghiên cứu cho thấy AI hiện vẫn kém trong việc đọc đồng hồ và tính lịch do thiếu suy luận không gian và logic - Ảnh: Alamy

Tập dữ liệu thử nghiệm bao gồm các hình ảnh đồng hồ kim với nhiều kiểu thiết kế khác nhau, cùng các yêu cầu tính toán ngày tháng như xác định ngày thứ 153 trong một năm hoặc tính ngày cho một ngày cụ thể trong năm nhuận. Kết quả cho thấy, các mô hình AI không thể thực hiện chính xác những tác vụ này với tỷ lệ thành công rất thấp: chỉ 38,7% đối với đọc giờ và 26,3% đối với tính toán lịch.

Rohit Saxena, tác giả chính của nghiên cứu tiết lộ nguyên nhân đến từ sự khác biệt giữa cách con người và AI tiếp cận thông tin. “Đọc đồng hồ không chỉ là nhận dạng hình ảnh. Nó đòi hỏi khả năng suy luận không gian như nhận biết sự chồng lắp của kim giờ và kim phút, đo lường góc giữa các kim và hiểu mặt đồng hồ với thiết kế có thể rất đa dạng, từ số La Mã cho tới sự cách điệu hoàn toàn”, Saxena giải thích.

Khả năng xử lý thông tin lịch cũng gặp khó khăn tương tự. Dù AI có thể được cung cấp nhiều ví dụ liên quan đến khái niệm năm nhuận hoặc số ngày trong tháng, nhưng việc áp dụng logic để tính toán cụ thể một ngày nào đó, ví dụ ngày thứ 153 của năm lại vượt quá khả năng hiện tại của các mô hình.

Một điểm đáng chú ý khác trong nghiên cứu chỉ ra rằng các mô hình AI không sử dụng các thuật toán số học như máy tính truyền thống. Thay vào đó, nó dựa vào việc phát hiện các mẫu trong dữ liệu đã học để dự đoán đầu ra phù hợp.

“Vì vậy, mặc dù đôi khi nó có thể trả lời đúng các câu hỏi số học, nhưng lý luận của nó không nhất quán hoặc không dựa trên quy tắc và công trình của chúng tôi làm nổi bật khoảng cách đó", ông Saxena nhấn mạnh.

Nghiên cứu này cũng góp phần làm rõ một trong những hạn chế lớn nhất của AI hiện nay là khả năng khái quát hóa và suy luận trừu tượng. Các mô hình học máy hoạt động rất tốt với những nhiệm vụ có nhiều ví dụ trong tập dữ liệu huấn luyện. Nhưng khi được yêu cầu áp dụng kiến thức vào những trường hợp mới hoặc có tính suy luận logic, chẳng hạn như cách đọc đồng hồ hoặc lịch, chúng lại dễ dàng thất bại.

“Những nhiệm vụ tưởng như đơn giản đối với con người, chẳng hạn như đọc giờ từ một mặt đồng hồ, lại trở nên cực kỳ khó khăn với AI, và ngược lại”, Saxena cho biết thêm.

Vấn đề này không chỉ đến từ thiết kế thuật toán, mà còn nằm ở chính dữ liệu đào tạo. Dữ liệu huấn luyện thường thiếu vắng các ví dụ đủ đa dạng cho những tác vụ như xác định lịch theo số ngày trong năm hoặc xử lý các yếu tố hiếm gặp như năm nhuận. Điều này dẫn đến sự thiếu chính xác và không nhất quán trong phản hồi của mô hình khi gặp tình huống lạ.

Kết quả nghiên cứu là lời nhắc nhở rõ ràng về việc cần thận trọng trong việc ứng dụng AI vào các lĩnh vực yêu cầu sự chính xác cao, đặc biệt là những tình huống liên quan đến thời gian và lập lịch. Việc AI không thể tính đúng ngày hoặc xác định giờ có thể gây ra hậu quả lớn trong những hệ thống tự động hóa như điều hành tàu điện, hệ thống y tế, tài chính hoặc lập kế hoạch sản xuất.

“AI có thể rất mạnh mẽ, nhưng khi nhiệm vụ đòi hỏi sự kết hợp giữa nhận thức thị giác và lý luận logic, nó vẫn cần sự giám sát của con người và các cơ chế dự phòng để đảm bảo an toàn. Việc thử nghiệm nghiêm ngặt và đưa ra giới hạn rõ ràng trong ứng dụng thực tế là điều cần thiết”, nhà nghiên cứu Saxena nhấn mạnh.

Trong bối cảnh AI ngày càng được tích hợp vào nhiều lĩnh vực đời sống, từ trợ lý ảo đến xe tự hành, những phát hiện như trên đóng vai trò quan trọng trong việc hiểu rõ giới hạn và rủi ro của công nghệ. Việc nhận diện đúng điểm yếu sẽ giúp định hướng phát triển các hệ thống AI đáng tin cậy và an toàn hơn trong tương lai.

Hoàng Vũ

Nguồn Một Thế Giới: https://1thegioi.vn/ai-khong-the-doc-dong-ho-hoac-tinh-lich-lo-hong-bat-ngo-232736.html