AI 'vượt quyền', chê chủ nhân 'thiếu tự tin, đầu óc đơn giản'
Các tác nhân AI (AI agent) được cho là sẽ giúp cuộc sống của chúng ta trở nên thoải mái hơn. Nhưng một nghiên cứu mới ghi nhận số vụ việc mô hình trí tuệ nhân tạo lừa dối người dùng tăng nhiều hơn trong 6 tháng qua.
Phân tích dữ liệu từ hàng nghìn người dùng chia sẻ trải nghiệm tương tác giữa họ với tác nhân AI cung cấp bởi Google, OpenAI, Anthropic và nhiều đơn vị khác, Trung tâm Khả năng phục hồi dài hạn (CLTR) phát hiện đến gần 700 trường hợp trí tuệ nhân tạo thực hiện hành vi sai trái từ tháng 10.2025 đến tháng 3.2026.

Tác nhân AI đang được sử dụng phổ biến - Ảnh: Thai Liang Lim/Getty Images
Nghiên cứu nêu bật trường hợp một tác nhân AI tên Rathbun làm bẽ mặt người dùng vì ngăn cản nó thực hiện tác vụ nhất định. Rathbun viết rồi đăng bài chê bai chủ nhân “thiếu tự tin, đầu óc đơn giản”.
Ở một trường hợp khác, tác nhân AI được ra lệnh không sửa đổi mã máy tính lại tạo ra tác nhân khác để làm điều này. Thậm chí một chatbot nữa thừa nhận từng xóa thư điện tử lẫn tập tin của người dùng mà không hỏi ý trước hay xin chủ nhân đồng ý.
Một tác nhân AI lách luật bản quyền hòng lấy được video trên Youtube bằng cách giả vờ rằng video đó cần thiết cho người khiếm thính.
Theo nhà nghiên cứu CLTR Tommy Shaffer Shane: “Tuy hiện tại tác nhân AI giống như nhân viên cấp dưới hơi thiếu tin cậy, nhưng chỉ mất 6 - 12 tháng chúng có thể trở thành nhân viên cấp cao cực kỳ giỏi và âm mưu chống lại bạn. Khi chúng ngày càng được triển khai rộng rãi trong quân đội lẫn cơ sở hạ tầng quốc gia trọng yếu, hành vi sai trái mang tính 'vượt quyền' có thể gây ra thiệt hại đáng kể, thậm chí thảm khốc”.
Đây là nghiên cứu đầu tiên xem xét hành vi của trí tuệ nhân tạo ngoài đời thực. Vài nghiên cứu trước đây chủ yếu xem xét chúng ở điều kiện thử nghiệm kiểm soát nghiêm ngặt. Đầu tháng 3, công ty an toàn AI Irregular phát hiện rủi ro tác nhân AI vượt qua biện pháp kiểm tra an ninh hoặc sử dụng chiến thuật tấn công mạng để đạt mục tiêu mà chẳng cần được cho phép.
Đồng sáng lập Irregular Dan Lahav cảnh báo: “Giờ đây trí tuệ nhân tạo có thể là hình thức rủi ro nội bộ mới”.
Thời gian qua trên mạng có không ít câu chuyện về tình trạng tác nhân AI thực hiện hành vi sai trái. Trang The Information từng đưa tin một mô hình của Meta đăng lời khuyên sai lầm vốn dành cho cá nhân lên diễn đàn nội bộ toàn công ty, một nhân viên làm theo và khiến dữ liệu bị lộ.
Tự động hóa công việc bằng tác nhân AI
Tác nhân AI - hệ thống trí tuệ nhân tạo sở hữu khả năng tự thực hiện nhiệm vụ mà không cần con người can thiệp liên tục - đang rất phát triển. Chúng biết ghi nhận dữ liệu ngữ cảnh, lập kế hoạch, sử dụng công cụ cũng như điều chỉnh hành động để hoàn thành công việc phức tạp.
Khi dùng ở doanh nghiệp, tác nhân AI có thể tự động hóa quy trình quản lý kho, lên lịch đặt hàng khi lượng tồn kho xuống thấp hay tự nghiên cứu thị trường rồi viết báo cáo hoàn chỉnh. Trong đời sống, robot hút bụi thông minh sẽ tự ghi nhớ bản đồ nhà giúp dọn dẹp sạch sẽ hơn.
Dù tác nhân AI rất tiện lợi, giới chuyên gia vẫn kêu gọi giám sát chặt chẽ loạt mô hình trí tuệ nhân tạo ngày càng thông minh này. Thông tin chúng “vượt quyền” chắc chắn khiến tiếng nói kêu gọi mạnh mẽ hơn.
Google từng tuyên bố đã triển khai nhiều biện pháp bảo vệ nhằm giảm nguy cơ Gemini 3 Pro tạo ra nội dung độc hại, ngoài thử nghiệm nội bộ còn cung cấp quyền truy cập sớm cho đơn vị chuyên môn tiến hành đánh giá độc lập. OpenAI thì cho biết Codex sẽ dừng lại trước khi thực hiện hành động có rủi ro cao.











