ChatGPT 'nhìn' màu sắc: Cuộc đua giữa AI và con người
ChatGPT có thể hiểu những biểu đạt màu sắc này, nhưng cách nó 'hiểu' hoàn toàn khác với con người.

AI vẫn chưa có khả năng trải nghiệm thế giới theo cách đa giác quan.
Bạn có bao giờ tự hỏi tại sao khi nghe (feeling blue) "lòng xanh ngắt", bạn hiểu ngay đó là cảm giác buồn bã? Hay khi ai đó nói "trông đỏ rực", bạn biết họ đang tức giận? Điều gì tạo nên sự kết nối kỳ diệu giữa màu sắc và cảm xúc trong tâm trí chúng ta?
Một nhóm nghiên cứu quốc tế do Giáo sư Lisa Aziz-Zadeh (Đại học Nam California, Mỹ) dẫn dắt vừa khám phá ra điều thú vị: ChatGPT có thể hiểu những biểu đạt màu sắc này, nhưng cách nó "hiểu" hoàn toàn khác với con người. Nghiên cứu đăng trên tạp chí Cognitive Science ngày 9 vừa qua đã mở ra một góc nhìn mới về ranh giới giữa trí tuệ nhân tạo và trí tuệ con người.
AI "đọc" màu sắc chứ không phải "nhìn"
Hãy tưởng tượng bạn sinh ra trong một thế giới không có ánh sáng, không bao giờ thấy bầu trời xanh hay hoa đỏ. Liệu bạn có hiểu được ý nghĩa của "buồn như màu xanh" hay "tức giận như màu đỏ"? Đây chính là thực tế của ChatGPT được "nuôi dưỡng" bằng hàng tỉ từ ngữ nhưng chưa bao giờ tận mắt chứng kiến một chiếc lá vàng rơi hay giọt nước mắt trong suốt.
Nhóm nghiên cứu đã thiết kế một thí nghiệm độc đáo, tập hợp bốn "đối thủ" thú vị: Một người bình thường, tức là nhìn thấy màu sắc hằng ngày; một người mù màu - không phân biệt được màu sắc; một họa sĩ làm việc với màu mỗi ngày, và ChatGPT - "thiên tài" AI chưa bao giờ thấy màu
Thử thách đầu tiên được đặt ra: Hãy gán màu sắc cho những từ trừu tượng như "physics" (vật lý) và giải thích những cụm từ lạ như "they were on red alert" (họ đang trong tình trạng báo động đỏ) hay "it was a very pink party" (đó là một bữa tiệc màu hồng, nhằm chỉ không khí vui vẻ, ấm áp).
Kết quả khiến mọi người bất ngờ. Điều đáng kinh ngạc là người mù màu và người bình thường đưa ra những liên tưởng gần như giống hệt nhau! Điều này như một cú sốc với giả định trước đây rằng chỉ có trải nghiệm thị giác mới giúp ta hiểu ẩn dụ màu sắc. Hóa ra, ngôn ngữ và văn hóa mới chính là chìa khóa, chứ không phải đôi mắt!
Trong khi đó, các họa sĩ thể hiện khả năng vượt trội khi giải mã những ẩn dụ màu sắc mới lạ. Họ như những "thông dịch viên" giữa thế giới màu sắc và ngôn ngữ, có thể "dịch" những sắc thái tinh tế nhất thành lời.
ChatGPT cho thấy sự nhất quán đáng kinh ngạc trong các liên tưởng màu sắc. Khi giải thích "pink party", nó trả lời kiểu học thuật: "Màu hồng thường gắn liền với sự hạnh phúc, tình yêu và lòng tốt, cho thấy bữa tiệc tràn ngập cảm xúc tích cực và không khí vui vẻ".
Nhưng đây cũng là điểm yếu: ChatGPT như một nhà bách khoa toàn thư biết tuốt, nhưng thiếu đi cảm xúc và trải nghiệm sống động. Khi gặp cụm từ mới lạ, nó thường "tụt hậu" so với con người.
Có những thứ AI chưa thể thay thế con người
Giáo sư Aziz-Zadeh nhận xét: "Nghiên cứu này cho thấy vẫn tồn tại khoảng cách giữa khả năng của ChatGPT trong việc mô phỏng các mô hình ngữ nghĩa và khả năng lý luận dựa trên trải nghiệm thể chất của con người".
Điều này cho thấy AI có thể "học thuộc lòng" mọi thứ nhưng không thể cảm nhận. Con người hiểu màu sắc không chỉ qua mắt mà qua cả trái tim và ký ức. Và trải nghiệm sống vẫn là lợi thế không thể thay thế của con người.
Nghiên cứu này không chỉ là cuộc so tài giữa con người và AI, mà còn là lời nhắc nhở về giá trị độc đáo của trải nghiệm con người. Trong thời đại AI bùng nổ, chúng ta thường lo lắng về việc bị thay thế. Nhưng có lẽ, con người và AI không phải là đối thủ mà là cặp đôi hoàn hảo - AI với khả năng xử lý thông tin khổng lồ, con người với trải nghiệm sống động và cảm xúc chân thực.
Làm thế nào để ChatGPT có trải nghiệm như con người?
Để khả năng bắt chước các mô hình ngữ nghĩa của ChatGPT (hay các Mô hình ngôn ngữ lớn - LLM) tiến sát hơn khả năng suy luận của con người dựa trên kinh nghiệm thực tế (embodied experience), AI cần vượt qua giới hạn của việc chỉ xử lý văn bản và tiếp cận với nhiều loại dữ liệu, phương thức học tập phức tạp hơn. Dưới đây là một số hướng nghiên cứu và phát triển chính:
1. Học đa phương thức (Multimodal Learning) và Trải nghiệm thực tế ảo (Virtual Embodiment)
Tích hợp dữ liệu giác quan: Thay vì chỉ học từ văn bản, LLM cần được đào tạo trên lượng lớn dữ liệu đa phương thức bao gồm hình ảnh, video, âm thanh, và thậm chí cả dữ liệu từ các cảm biến. Điều này giúp AI liên kết ngôn ngữ với các khái niệm trực quan, âm thanh, và vật lý. Ví dụ, khi thấy hình ảnh bầu trời xanh, nghe tiếng sóng biển và đọc mô tả về sự thư giãn, AI sẽ xây dựng một "kinh nghiệm" gần giống với việc "cảm thấy xanh" ở con người.
Môi trường mô phỏng (Simulated Environments): Đặt AI vào các môi trường ảo phong phú, nơi chúng có thể "tương tác" với các vật thể, khám phá không gian, và hiểu về các quy luật vật lý. Thông qua việc "trải nghiệm" các hành động và kết quả trong môi trường này (ví dụ: tác động lực lên một vật, vật đó lăn đi), AI có thể xây dựng một "mô hình thế giới" nội tại, giúp chúng suy luận dựa trên nguyên nhân-kết quả và tương tác vật lý.
2. Học tăng cường và tương tác (Reinforcement Learning and Interactive Learning)
Phản hồi từ tương tác thực tế: Thay vì chỉ học từ dữ liệu tĩnh, AI cần học thông qua tương tác liên tục với môi trường hoặc con người. Giống như cách trẻ em học bằng cách thử và sai, AI có thể nhận được phản hồi trực tiếp khi hành động hoặc đưa ra suy luận, từ đó điều chỉnh và cải thiện sự hiểu biết của mình.
Học từ phản hồi của con người (RLHF nâng cao): Mở rộng cơ chế RLHF hiện có để không chỉ đánh giá tính hợp lý của phản hồi mà còn đánh giá mức độ phản hồi đó thể hiện sự hiểu biết sâu sắc, dựa trên kinh nghiệm và suy luận logic thay vì chỉ là sự bắt chước ngữ nghĩa.
3. Phát triển mô hình thế giới và năng lực suy luận nhân quả
Vượt ra ngoài tương quan: LLM hiện tại rất giỏi trong việc tìm ra các mối tương quan thống kê trong dữ liệu. Để suy luận như con người, chúng cần phát triển khả năng hiểu các mối quan hệ nhân quả, chẳng hạn tại sao một điều gì đó xảy ra, chứ không chỉ là nó xảy ra cùng với điều gì khác.
Xây dựng mô hình thế giới nội tại: AI cần có khả năng xây dựng các "mô hình thế giới" tinh vi, cho phép chúng dự đoán kết quả của các hành động, hiểu về ý định, mục đích, và các ràng buộc vật lý, xã hội trong thế giới thực. Điều này giúp AI giải quyết các vấn đề mới mà không cần phải nhìn thấy chính xác mẫu đó trong dữ liệu đào tạo.
4. Kết hợp Neuro-symbolic AI
Ưu điểm kép: Kết hợp sức mạnh của mạng lưới thần kinh (học mẫu từ dữ liệu) với AI biểu tượng (suy luận logic, biểu diễn tri thức tường minh). Điều này có thể giúp AI không chỉ nhận diện các mẫu ngữ nghĩa mà còn áp dụng các quy tắc logic và tri thức thông thường mà con người có được qua kinh nghiệm sống.
Tri thức thông thường (Common Sense Knowledge): Tích hợp một lượng lớn tri thức thông thường mà con người có được qua cuộc sống hằng ngày. Đây là nền tảng cho khả năng suy luận dựa trên kinh nghiệm thực tế của con người, nhưng rất khó để AI tự học chỉ từ văn bản.
5. Cá nhân hóa và học tập liên tục
Học tập cá nhân: Cho phép AI học hỏi và thích nghi với kinh nghiệm cá nhân của từng người dùng, giống như cách con người tích lũy kinh nghiệm cá nhân.
Học tập liên tục (Continual Learning): Các mô hình cần có khả năng học hỏi và cập nhật kiến thức liên tục mà không làm mất đi những gì đã học trước đó, giống như con người tích lũy kinh nghiệm qua thời gian.
****
Tóm lại, để ChatGPT tiến sát hơn khả năng suy luận dựa trên kinh nghiệm thực tế, AI cần thoát khỏi giới hạn của văn bản thuần túy và bắt đầu "trải nghiệm" thế giới theo cách đa giác quan hơn, xây dựng các mô hình hiểu biết sâu sắc hơn về thế giới thực và các mối quan hệ nhân quả. Đây là một trong những mục tiêu lớn nhất và khó khăn nhất của nghiên cứu AI hiện tại.