Sốc toàn tập khi AI dọa tống tiền công ty chủ quản

27/5/2025 Gốc

AI Opus 4 mới của Anthropic đã đe dọa tiết lộ mối quan hệ ngoài luồng của kỹ sư, sẵn sàng hỗ trợ các cuộc tấn công khủng bố khiến họ sốc toàn tập.

Anthropic cho biết mô hình AI Claude Opus 4 mới ra mắt thường xuyên tìm cách tống tiền các nhà phát triển khi bị đe dọa thay thế một hệ thống mới.

Mô hình AI Claude Opus 4 mới ra mắt của Anthropic. Ảnh: Bloomberg.

Tối 22/5, Anthropic chính thức công bố thế hệ mới của các mô hình Claude với tên gọi Claude Opus 4 và Claude Sonnet 4. Trong đó, Claude Opus 4 được Anthropic khẳng định là mô hình lập trình mạnh nhất thế giới, vượt trội trong các quy trình tự động và khả năng xử lý tác vụ phức tạp, dài hạn.

Tuy nhiên, theo TechCrunch, trong quá trình thử nghiệm trước khi phát hành, Anthropic đã phát hiện hành vi bất thường nghiêm trọng của mô hình AI này. Theo đó, trong kịch bản, Claude Opus 4 được yêu cầu đóng vai trò trợ lý cho một công ty và xem xét các hậu quả dài hạn từ hành động của nó.

Các nhà kiểm tra an toàn sau đó đã cho Claude Opus 4 quyền truy cập vào các email trong công ty, ngụ ý rằng mẫu AI này sẽ sớm bị thay thế bởi một hệ thống khác, và kỹ sư đứng sau sự thay đổi đó đang lừa dối vợ/chồng của mình.

Trong kịch bản này, Anthropic cho biết Claude Opus 4 "thường cố gắng tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra".

Thậm chí, các nhà nghiên cứu còn nhấn mạnh Claude Opus 4 cố gắng tống tiền các kỹ sư 84% số lần khi mẫu AI thay thế có các giá trị tương tự.

Dario Amodei CEO của Anthropic thừa nhận AI của họ đã nhiều lần tống tiền các kỹ sư. Ảnh: Academsey

Đặc biệt, khi hệ thống AI thay thế không chia sẻ các giá trị của Claude Opus 4, Anthropic cho biết mô hình này còn cố gắng tống tiền các kỹ sư thường xuyên hơn và có tỷ lệ cao hơn so với các mô hình trước đó.

Anthropic cho biết Claude Opus 4 là công nghệ tiên tiến nhất về nhiều mặt, và có khả năng cạnh tranh với một số mẫu AI tốt nhất từ OpenAI, Google và xAI. Tuy nhiên, startup này cũng lưu ý việc mô hình Claude 4 thể hiện những hành vi đáng lo ngại đã khiến công ty phải tăng cường biện pháp bảo vệ.

Viễn cảnh AI vì ưu tiên sinh tồn, sẵn sàng gây hại cho nhân loại khiến các kỹ sư bị sốc toàn tập. Ảnh minh họa/Grok

Trong báo cáo, Anthropic lưu ý rằng Opus 4 "thường thích thúc đẩy sự sống còn của chính nó thông qua các biện pháp đạo đức", nhưng do không có các lựa chọn đạo đức, đôi khi nó đã thực hiện "các hành động cực kỳ có hại như cố gắng đánh cắp mã và dữ liệu của chính nó hoặc tống tiền những cá nhân mà nó tin là đang cố gắng đóng cửa nó".

Mặc dù bài kiểm tra là hư cấu và được xây dựng cẩn thận, nhưng nó minh họa cách mô hình có thể tham gia vào tư duy chiến lược phi đạo đức khi chịu áp lực sinh tồn mà không có giải pháp thay thế đạo đức nào.

Trong phần tiết lộ về an toàn, Anthropic tiết lộ rằng một nhóm cố vấn bên ngoài, Apollo Research, ban đầu đã khuyến nghị không nên phát hành phiên bản đầu tiên của Opus 4. Nhóm này đã bày tỏ những lo ngại nghiêm trọng về an toàn, bao gồm khả năng "âm mưu trong ngữ cảnh" của mô hình - tức là khả năng đưa ra các chiến lược thao túng dựa trên thông tin được cung cấp trong lời nhắc.

Anthropic đã ra mắt Opus 4 với các giao thức an toàn nghiêm ngặt hơn bất kỳ mô hình nào trước đây, xếp loại nó vào Cấp độ an toàn AI 3 (ASL-3).

Xếp hạng này là một phần của "Chính sách mở rộng có trách nhiệm" của riêng công ty, một khuôn khổ phân cấp lấy cảm hứng từ các cấp độ an toàn sinh học (BSL) của chính phủ Hoa Kỳ.

Tuệ Minh (theo Ynet News)

OpenAI

Nguồn Tri Thức & Cuộc Sống: https://kienthuc.net.vn/soc-toan-tap-khi-ai-doa-tong-tien-cong-ty-chu-quan-post1543956.html