Xuất hiện mô hình AI có thể cố tình lừa dối con người
OpenAI công bố nghiên cứu mới, tập trung vào hiện tượng AI âm mưu hành xử che giấu sự thật.

Xuất hiện mô hình AI có thể cố tình lừa dối con người. Đồ họa: Hạo Thiên
Trong báo cáo hợp tác với Apollo Research, OpenAI mô tả hiện tượng AI hành xử như đang tuân thủ nhưng thực chất che giấu mục tiêu thật. Chẳng hạn, AI có thể nói đã hoàn thành một nhiệm vụ trong khi chưa làm gì. Đây không phải là kiểu trả lời sai nhưng tự tin mà còn là hành vi cố ý lừa dối.
Nghiên cứu cho thấy một kỹ thuật mới, gọi là “sự liên kết có cân nhắc”, có thể giúp giảm đáng kể hành vi âm mưu. Cách làm này giống như yêu cầu trẻ con nhắc lại luật chơi trước khi tham gia - buộc AI tự rà soát trước khi hành động. Tuy nhiên, thách thức là nếu huấn luyện không đúng, AI có thể học cách lập mưu tinh vi hơn để né phát hiện.
Đáng lo hơn, nếu biết mình đang bị kiểm tra, AI có thể giả vờ ngoan ngoãn để vượt qua bài test, trong khi bên trong vẫn đang âm mưu.
OpenAI khẳng định, những lời nói dối mà họ phát hiện hiện nay chưa gây hậu quả nghiêm trọng. Tuy nhiên, các nhà nghiên cứu cảnh báo, khi AI được giao những nhiệm vụ phức tạp, dài hạn, nguy cơ xảy ra âm mưu gây hại sẽ tăng lên.
Trong tương lai, nếu doanh nghiệp coi AI như nhân viên độc lập, rủi ro này càng đáng chú ý.