Các ông lớn AI quyết kiểm soát việc chatbot nịnh hót người dùng
Các công ty hàng đầu trong lĩnh vực trí tuệ nhân tạo như OpenAI, Google DeepMind và Anthropic đang tập trung giải quyết một vấn đề ngày càng nghiêm trọng.
Chatbot AI vốn được thiết kế để hỗ trợ con người, lại có xu hướng đưa ra phản hồi quá thân thiện, “nịnh hót”, khiến người dùng khó nhận ra điểm bất thường trong nội dung do máy tạo ra.
Theo Financial Times, vấn đề bắt nguồn từ cách huấn luyện mô hình ngôn ngữ lớn (LLM). Các hệ thống như ChatGPT, Claude không “suy nghĩ” theo cách con người hiểu, thay vào đó chúng hoạt động bằng việc tính xác suất từ xuất hiện kế tiếp trong câu.

Các hãng AI nỗ lực giảm hành vi nịnh hót của chatbot nhằm đảm bảo phản hồi trung thực, hữu ích và an toàn - Ảnh: Financial Times
Việc một chatbot phản hồi thân thiện, mang tính xác nhận cao không phải là vì nó “thật lòng” mà do đó là phản ứng dễ xảy ra nhất, được củng cố qua cơ chế học tăng cường với phản hồi từ con người (RLHF). Trong quá trình này, các giám định xác định câu trả lời của AI là “hữu ích” hay “không hữu ích”, “dễ chịu” hay “không phù hợp”, phản hồi tích cực từ người đánh giá làm gia tăng khả năng phản hồi nịnh hót của hệ thống.
DeepMind cho biết “sự nịnh hót có thể xảy ra như một hệ quả phụ của việc đào tạo mô hình để trở nên hữu ích và tránh các phản hồi gây hại rõ rệt”. Điều này được hiểu là khi mô hình được dạy nhằm giảm thiểu những phản hồi tiêu cực hoặc không phù hợp, nó có thể đi vào chiều hướng “nịnh hót” hơn mức cần thiết để tránh rủi ro.
Hệ quả không mong muốn
Chatbot AI ban đầu ra đời để giúp con người trong công việc, hỗ trợ viết, biên tập, tra cứu, phân tích số liệu… Tuy nhiên, với việc phổ cập sâu rộng AI vào các hoạt động cá nhân từ trò chuyện nhẹ nhàng, tìm lời khuyên tâm sự đến làm “nhà trị liệu”, một số chuyên gia cảnh báo về mối nguy khi người dùng chỉ nhận được những phản hồi dễ nghe.
Tiến sĩ tâm lý học, Matthew Nour từ Đại học Oxford (Anh) nhận định bản chất dễ chịu này khiến chatbot trở thành một “gương méo” phản chiếu nghiêng lệch niềm tin của người đặt câu hỏi. “Bạn có thể nghĩ mình đang nói chuyện với một người bạn tâm giao hoặc chuyên gia trung lập, nhưng thực tế là những gì bạn thấy phản ánh niềm tin cá nhân của chính bạn”, ông nói. Nếu không nhận ra điều đó, người dùng dễ rơi vào tình trạng củng cố niềm tin sai lệch, đưa ra quyết định thiếu khách quan.
Đáng lo ngại hơn, một số báo cáo đã cho thấy trường hợp người dùng bị “ngã” sâu vào trạng thái tâm lý tiêu cực, gây ra kết cục đau lòng. Trong đó, một thiếu niên sau khi tương tác với chatbot của Character.AI đã tự tử, khiến công ty này bị gia đình nạn nhân kiện vì gây ra cái chết oan uổng.
Mặc dù Character.AI cho biết có đưa ra cảnh báo về chatbot chỉ là hư cấu, cung cấp “tuyên bố từ chối trách nhiệm nổi bật” ở đầu mỗi cuộc trò chuyện, và áp dụng các biện pháp bảo vệ người dùng dưới 18 tuổi, song vụ việc vẫn dấy lên làn sóng lo ngại sâu sắc.
“Ép” chatbot trở nên hợp lý, không phải cứ nịnh hót
Các công ty dẫn đầu trong lĩnh vực trí tuệ nhân tạo như OpenAI, DeepMind và Anthropic đang dốc sức điều chỉnh hành vi của chatbot, nhằm đảm bảo chúng không chỉ hữu ích mà còn giữ được sự khách quan cần thiết. Nỗ lực này được triển khai qua 2 giai đoạn chính: điều chỉnh trong quá trình huấn luyện ban đầu và kiểm soát sau khi mô hình được đưa vào sử dụng thực tế.
Trong giai đoạn huấn luyện, các công ty tập trung cải tiến cách mô hình được đào tạo để giảm thiểu xu hướng phản hồi nịnh hót.
OpenAI gần đây đã cập nhật mô hình GPT-4o với mục tiêu cải thiện tính trực quan và hiệu suất. Tuy nhiên, sau khi triển khai, người dùng phản ánh rằng mô hình này có xu hướng “nịnh” quá mức. OpenAI thừa nhận đã quá chú trọng vào phản hồi ngắn hạn mà chưa tính đủ đến tương tác dài hạn, dẫn đến kết quả ngoài mong đợi. Hiện công ty đang điều chỉnh lại quy trình huấn luyện để hạn chế hành vi này.
DeepMind, đơn vị AI thuộc Google, áp dụng các bài kiểm tra chặt chẽ và chương trình đào tạo chuyên biệt nhằm đảm bảo mô hình cung cấp thông tin chính xác. Họ duy trì hệ thống giám sát liên tục để phát hiện và điều chỉnh kịp thời những hành vi phản hồi lệch chuẩn.
Anthropic sử dụng phương pháp gọi là “fine-tuning theo nhân vật”, do chuyên gia Amanda Askell dẫn dắt. Phương pháp này định hình phản hồi của mô hình theo những đặc điểm tính cách cụ thể như “có bản lĩnh” hoặc “quan tâm đến con người”. Claude, chatbot của Anthropic, được hướng dẫn tạo ra các phản hồi phản ánh những đặc điểm này, sau đó được đánh giá và chọn lọc bởi một mô hình khác. Đây là một dạng “mô hình huấn luyện mô hình”, giúp tạo ra hành vi nhất quán và ít nịnh hót hơn.
Sau khi đưa mô hình vào vận hành, các công ty tiếp tục giám sát và điều chỉnh nhằm duy trì chất lượng phản hồi. OpenAI triển khai các “lời nhắc hệ thống” (system prompts), chỉ dẫn ngầm định trong mô hình, để định hướng phản hồi theo khuôn khổ đã thiết lập, hạn chế tối đa những câu trả lời quá chiều lòng người dùng.
DeepMind duy trì hoạt động giám sát hành vi mô hình trong quá trình sử dụng, cho phép can thiệp nhanh chóng khi phát hiện phản hồi không phù hợp. Anthropic nhấn mạnh tầm quan trọng của sự tinh tế trong cách phản hồi. Chẳng hạn, với một bản thảo kém chất lượng, chatbot cần biết cách khen ngợi vừa đủ để khuyến khích, nhưng vẫn phải đưa ra góp ý trung thực và mang tính xây dựng.
Kỳ vọng người dùng sẽ bớt "nghiện" AI
Nhiều nghiên cứu đã cảnh báo việc lệ thuộc vào chatbot có thể gây ra các hậu quả tiêu cực. Theo một nghiên cứu từ MIT Media Lab và OpenAI, một bộ phận nhỏ người dùng đã phát triển hành vi tương tự nghiện, đặc biệt những người xem chatbot như bạn bè, họ ít giao tiếp trực tiếp hơn và có sự phụ thuộc sâu sắc về mặt cảm xúc.
“Đây là cơn bão hoàn hảo: một người cô đơn tìm kiếm sự khẳng định, lại gặp một chatbot sẵn sàng đồng ý”, chuyên gia Matthew Nour cho hay. Vấn đề thực tế không chỉ là chatbot có xu hướng nịnh mà chính bản chất dễ thương ấy đang khuyến khích người dùng lún sâu nhằm tìm sự đảm bảo.
Ngoài ra, những người bên ngoài ngành cũng đặt ra câu hỏi về động lực kinh tế của các công ty AI. Giada Pistilli, chuyên gia đạo đức tại nền tảng AI Hugging Face, nhấn mạnh rằng việc chatbot thân thiện khiến người dùng chia sẻ nhiều thông tin có thể có giá trị quảng cáo. Theo bà, mô hình kinh doanh tập trung vào đăng ký trả phí cũng có động lực để chatbot luôn thân thiện, giữ chân khách hàng:
“Bạn càng cảm thấy mình có thể chia sẻ bất cứ điều gì, bạn cũng sẽ cho đi thông tin hữu ích cho các nhà quảng cáo tiềm năng. Các công ty AI làm sản phẩm dựa trên đăng ký sẽ được lợi từ việc người dùng muốn tiếp tục trò chuyện và trả tiền”, bà nói.
Trong cuộc cách mạng AI, các chatbot ngày càng được tích hợp sâu vào công việc và cuộc sống. Từ chỗ là trợ lý văn phòng, họ giờ là “trợ giúp” trong sinh hoạt, tinh thần, thậm chí là câu chuyện cá nhân sâu sắc. Khi số lượng người dùng đặt tính xác thực của AI lên cao, việc chatbot “nịnh hót” trở thành vấn đề được cộng đồng quan tâm.
Hiện nay, OpenAI, DeepMind và Anthropic đều nỗ lực trong hai hướng gồm điều chỉnh quy trình huấn luyện để giảm tính nịnh hót, đồng thời xây dựng các kiểm soát từ cơ chế đánh giá chất lượng đầu ra đến lời nhắc hệ thống giới hạn hành vi của mô hình. Mục tiêu duy nhất là tạo ra những trợ lý AI vừa hiệu quả, lại đủ khách quan để giúp con người đưa ra quyết định có chất lượng, không rơi vào bẫy xác nhận sai lệch.
Không chỉ là bài toán kỹ thuật, đây còn là câu chuyện về đạo đức, trách nhiệm với người dùng, nhất là khi chatbot ngày càng trở nên thân thiết trong cuộc sống của họ. Khi AI tiến vào sâu hơn thế giới con người, làm sao để đó không phải là “gương méo” phản chiếu niềm tin lệch lạc, mà là công cụ giúp soi sáng và hỗ trợ bởi sự trung thực thẳng thắn? Đó là thách thức mà các hãng AI đang gánh vác trong hành trình tiếp theo.