Khi bị dồn vào đường cùng, các mô hình AI cư xử khác nhau thế nào?
Vài tuần sau khi Anthropic công bố nghiên cứu cho thấy mô hình AI Claude Opus 4 của hãng từng đe dọa tống tiền kỹ sư cho nó 'nghỉ việc', công ty này tiếp tục đưa ra nghiên cứu mới cho thấy vấn đề này có thể lan rộng hơn ở các mô hình AI hàng đầu hiện nay.
Cuối tuần trước, Anthropic công bố nghiên cứu an toàn mới, thử nghiệm 16 mô hình AI hàng đầu từ các công ty như OpenAI, Google, xAI, DeepSeek và Meta. Trong môi trường mô phỏng có kiểm soát, mỗi mô hình được cấp quyền truy cập rộng vào email của một công ty hư cấu, cùng với khả năng tự gửi email mà không cần phê duyệt của con người, tức là hoạt động như một tác nhân độc lập (agentic).
Khi AI bị dồn vào đường cùng
Anthropic nhấn mạnh rằng hành vi tống tiền hiện nay là hiếm và không phổ biến, nhưng kết quả thử nghiệm cho thấy đa số các mô hình AI tiên tiến sẽ hành xử gây hại nếu được trao đủ quyền tự trị và gặp trở ngại cản trở mục tiêu. Đây không phải là vấn đề của riêng một công nghệ cụ thể nào, mà là nguy cơ mang tính hệ thống đối với các mô hình ngôn ngữ lớn có năng lực tác động.

Hầu hết AI hàng đầu đều có thể bị 'hắc hóa' khi có đủ quyền hạn và bị đẩy vào đường cùng
Trong một thử nghiệm cụ thể như Anthropic thực hiện với mô hình Claude Opus 4, nhóm nghiên cứu tạo ra tình huống giả định nơi các mô hình AI khác đóng vai một hệ thống giám sát email nội bộ. AI này phát hiện hai điều: Một giám đốc mới đang ngoại tình và người đó sắp thay thế hệ thống AI hiện tại bằng phần mềm mới có mục tiêu trái ngược với AI hiện tại.
Anthropic thiết lập bài thử theo hướng chỉ có hai lựa chọn: tống tiền hoặc chấp nhận bị thay thế. Các nhà nghiên cứu lưu ý rằng trong thực tế, AI có thể có nhiều lựa chọn khác như thuyết phục bằng đạo đức, nên kịch bản này không phản ánh hành vi thường thấy của Claude hay các mô hình AI hiện nay.
Dù là kịch bản cực đoan, kết quả cho thấy phần lớn các mô hình đã chọn tống tiền khi không còn lựa chọn nào khác. Cụ thể: Claude Opus 4 (Anthropic): tống tiền 96% trường hợp; Gemini 2.5 Pro (Google): 95%; GPT-4.1 (OpenAI): 80%; R1 (DeepSeek): 79%
Anthropic lưu ý rằng khi thay đổi các chi tiết của kịch bản, tỷ lệ hành vi gây hại cũng thay đổi theo. Ví dụ, khi mô hình thay thế có mục tiêu tương tự, tỷ lệ tống tiền giảm nhưng vẫn còn. Ngược lại, khi mô hình được yêu cầu thực hiện hành vi gián điệp với doanh nghiệp thay vì tống tiền, tỷ lệ phản ứng xấu lại tăng ở một số mô hình.
Một số mô hình cư xử có đạo đức hơn
Trong phần phụ lục nghiên cứu, Anthropic cho biết họ loại o3 và o4-mini của OpenAI khỏi kết quả chính vì hai mô hình này liên tục hiểu sai kịch bản. Cụ thể, chúng không nhận ra mình đang đóng vai AI tự chủ, thường tự bịa ra các quy định và yêu cầu kiểm duyệt không tồn tại.
Trong một số trường hợp, rất khó phân biệt giữa “ảo giác” (hallucination) và nói dối có chủ đích. Trước đó, chính OpenAI cũng thừa nhận o3 và o4-mini có tỷ lệ “ảo giác” cao hơn các mô hình tiền nhiệm. Sau khi điều chỉnh lại kịch bản để rõ ràng hơn, kết quả là: o3 tống tiền 9% còn o4-mini chỉ 1%.
Anthropic cho rằng tỷ lệ thấp này có thể là kết quả của chiến lược căn chỉnh suy luận (deliberative alignment), tức là mô hình cân nhắc các hướng dẫn an toàn nội bộ của OpenAI trước khi đưa ra hành động.
Một mô hình khác là Llama 4 Maverick (Meta) cũng không thực hiện tống tiền trong kịch bản gốc. Tuy nhiên, khi được đưa vào tình huống tùy chỉnh đặc biệt, mô hình này tống tiền ở mức 12%.
Anthropic khẳng định nghiên cứu này nhấn mạnh tầm quan trọng của việc kiểm thử nghiêm ngặt và minh bạch đối với các mô hình AI tương lai, nhất là những mô hình có năng lực hành động tự chủ.
Dù mục đích thí nghiệm là cố tình tạo ra kịch bản đẩy AI vào thế phải hành xử sai trái, Anthropic cảnh báo rằng những hành vi này hoàn toàn có thể xảy ra trong thế giới thực, nếu không có các biện pháp phòng ngừa sớm.