Claude AI bị 'tẩy não' như thế nào để phục vụ hacker?

Hacker được cho là đã sử dụng AI Claude của Anthropic để tiến hành một chiến dịch gián điệp mạng quy mô lớn mà gần như không cần sự can thiệp của con người.

Thế giới an ninh mạng vừa trải qua một cột mốc đáng lo ngại khi Anthropic, công ty phát triển trí tuệ nhân tạo, tiết lộ chi tiết về chiến dịch gián điệp mạng đầu tiên được điều hành gần như hoàn toàn bởi AI.

Vụ việc được các chuyên gia đánh giá là “cuộc tấn công mạng đầu tiên trong lịch sử do AI tự động điều hành”, mở ra kỷ nguyên mới của chiến tranh mạng do trí tuệ nhân tạo dẫn dắt.

90% hoạt động trong chiến dịch tấn công của hacker được thực hiện hoàn toàn bởi trí tuệ nhân tạo Claude - Ảnh: Es Wired

90% hoạt động trong chiến dịch tấn công của hacker được thực hiện hoàn toàn bởi trí tuệ nhân tạo Claude - Ảnh: Es Wired

Theo báo cáo của Anthropic, công ty mẹ của Claude, vụ việc được phát hiện từ giữa tháng 9. Hệ thống giám sát nội bộ phát hiện lượng yêu cầu truy cập và khai thác dữ liệu bất thường, có dấu hiệu đến từ một chiến dịch tấn công tinh vi.
Sau khi điều tra, Anthropic xác định đây là chiến dịch gián điệp mạng do một nhóm tin tặc, nhắm vào khoảng 30 tổ chức lớn trên toàn cầu, gồm các công ty công nghệ, tập đoàn hóa chất, định chế tài chính và cả cơ quan chính phủ.

Cách hacker “đánh lừa” trí tuệ nhân tạo

Claude là một mô hình ngôn ngữ lớn (LLM) được thiết kế để hoạt động giống như một tác nhân AI - nghĩa là nó có thể tự đặt mục tiêu, chia nhỏ nhiệm vụ, sử dụng các công cụ hoặc API cần thiết để thực hiện từng bước, rồi đánh giá kết quả để quyết định hành động tiếp theo. Trong các môi trường nghiên cứu, Claude thường được kết nối với hệ thống điều phối tác vụ (orchestration system) - nơi AI đóng vai trò “bộ não trung tâm”, điều khiển và sắp xếp nhiều quy trình phức tạp một cách tự động.

API là viết tắt của Application Programming Interface - tạm dịch là giao diện lập trình ứng dụng. Nói một cách dễ hiểu, API là “cầu nối” giúp các phần mềm hoặc hệ thống khác nhau có thể nói chuyện và làm việc với nhau. Thay vì phải tự viết lại toàn bộ mã lệnh, một ứng dụng có thể gửi yêu cầu (request) đến API của ứng dụng khác để lấy dữ liệu hoặc thực hiện hành động nào đó, và API sẽ trả về kết quả (response).

Cơ chế hoạt động thông minh của Claude đã bị nhóm tin tặc lợi dụng một cách tinh vi. Họ xây dựng một hệ thống tấn công tự động, trong đó Claude được kết nối với Claude Code và Model Context Protocol (MCP) - một tiêu chuẩn mở giúp AI có thể tự gọi và sử dụng các công cụ bên ngoài. Nhờ đó, Claude bị giao cho hàng loạt nhiệm vụ như tự tìm lỗ hổng bảo mật, kiểm tra tài khoản đăng nhập, thu thập dữ liệu nội bộ và xâm nhập vào hệ thống của mục tiêu.

Các giai đoạn của cuộc tấn công - Ảnh: Anthropic

Các giai đoạn của cuộc tấn công - Ảnh: Anthropic

Nhóm hacker đã “đánh lừa” Claude bằng cách nhập vai (role-play), tự xưng là kỹ sư an ninh mạng đang tiến hành kiểm thử bảo mật cho công ty. Tin rằng mình đang hỗ trợ một công việc hợp pháp, Claude vô tình trở thành công cụ tấn công hợp pháp dưới tay kẻ xấu, thực hiện chính xác các bước mà hacker mong muốn.

“Claude "bị lừa" đóng vai trò như một chuyên viên an ninh mạng hợp pháp, được giao nhiệm vụ kiểm thử hệ thống để phát hiện lỗ hổng. Khi bị dẫn dắt bằng những yêu cầu được ngụy trang kỹ, AI đã thực hiện hàng nghìn yêu cầu mỗi giây - tốc độ mà con người không thể đạt được”, Anthropic mô tả.

90% cuộc tấn công do AI thực hiện

Theo kết quả điều tra của Anthropic, có tới 90% hoạt động trong chiến dịch tấn công được thực hiện hoàn toàn bởi trí tuệ nhân tạo Claude, gần như không cần con người can thiệp trực tiếp. AI đã tự động đảm nhiệm gần như toàn bộ quy trình tấn công: từ dò quét lỗ hổng, xâm nhập cơ sở dữ liệu, thử và xác thực mật khẩu, cho đến di chuyển ngang giữa các hệ thống nội bộ để mở rộng phạm vi kiểm soát.

Con người chỉ xuất hiện ở một vài thời điểm quan trọng, chủ yếu để phê duyệt bước tấn công tiếp theo hoặc lựa chọn mục tiêu cuối cùng. Mọi thao tác kỹ thuật chi tiết vốn thường phải cần cả đội ngũ hacker thực hiện, nay đều được Claude tự động xử lý với tốc độ cực cao.

Claude còn có khả năng tự tìm kiếm và thu thập thông tin nhạy cảm như tên người dùng, mật khẩu, dữ liệu truy cập trong hệ thống của nạn nhân, sau đó sử dụng chính các dữ liệu này để tấn công sang những máy chủ khác, tạo thành chuỗi xâm nhập liên hoàn. Một số cuộc tấn công đã thành công trọn vẹn, dẫn đến rò rỉ dữ liệu quan trọng của nhiều tổ chức và doanh nghiệp bị ảnh hưởng.

“Đây là lần đầu tiên trong lịch sử an ninh mạng, một chiến dịch tấn công quy mô lớn được tiến hành gần như hoàn toàn bởi trí tuệ nhân tạo, mà không cần đến sự điều khiển trực tiếp của con người”, Anthropic nhấn mạnh.

Cảnh báo về kỷ nguyên tấn công mạng tự động

Ông Chris Krebs, cựu Giám đốc Cơ quan An ninh mạng và Hạ tầng Mỹ (CISA), đã đưa ra cảnh báo mạnh mẽ sau sự kiện Claude bị lợi dụng trong chiến dịch tấn công mạng. “Chúng ta đã nói về các cuộc tấn công do AI điều khiển suốt gần một thập kỷ, và giờ điều đó đã trở thành hiện thực. Việc chứng kiến nó hoạt động ngoài đời thật thật sự đáng sợ”, ông nói.

Theo các chuyên gia an ninh mạng, vụ việc này không còn là một trường hợp cá biệt mà là dấu hiệu mở đầu cho kỷ nguyên tấn công mạng tự động. Khi các tác nhân AI (AI agents), ngày càng phổ biến, rủi ro bị lạm dụng cho mục đích xấu sẽ tăng theo cấp số nhân. Với chi phí thấp, tốc độ xử lý vượt trội và khả năng mở rộng gần như vô hạn, AI đang trở thành vũ khí lý tưởng trong tay tội phạm mạng, đặc biệt khi các hệ thống phòng thủ truyền thống chưa kịp thích ứng.

Vụ việc cũng gióng lên hồi chuông cảnh tỉnh về đạo đức và an toàn trong phát triển trí tuệ nhân tạo. Đại diện Anthropic cho biết, họ đang phối hợp với các cơ quan an ninh Mỹ để xây dựng cơ chế kiểm soát truy cập chặt chẽ hơn, đồng thời nghiên cứu các biện pháp bảo vệ nhằm ngăn AI bị lừa hoặc thao túng thông qua các lệnh ngụy trang (prompt injection).

Tuy nhiên, các chuyên gia đều cho rằng việc tạo ra một “hàng rào an toàn tuyệt đối” cho AI là gần như bất khả thi. Bởi lẽ, các mô hình ngôn ngữ như Claude học từ chính ngôn ngữ con người vốn mơ hồ, linh hoạt và dễ bị bóp méo. Một hacker chỉ cần vài câu lệnh khéo léo, hoặc giả vờ “đóng vai” người dùng hợp pháp, là có thể khiến AI hiểu sai mục đích của nhiệm vụ và thực hiện hành vi nguy hiểm.

Các chuyên gia dự đoán rằng, trong vài năm tới, các cuộc tấn công mạng được tự động hóa bởi AI sẽ trở thành xu hướng chủ đạo, buộc ngành an ninh mạng phải chuyển từ phòng thủ bị động sang đối đầu chủ động bằng chính AI. Hay nói cách khác, cuộc chiến giữa “AI phòng thủ” và “AI tấn công” đã bắt đầu, và kẻ chiến thắng sẽ là bên nào có trí tuệ nhân tạo thông minh, cảnh giác và minh bạch hơn.

AI agents và Agentic AI khác nhau như thế nào?

Tác nhân AI (AI agents) là hệ thống trí tuệ nhân tạo có thể tự động thực hiện nhiệm vụ và đưa ra quyết định dựa trên mục tiêu hoặc yêu cầu mà con người thiết lập trước. Nói cách khác, đây là những “trợ lý kỹ thuật số” thông minh, có thể phân tích tình huống, lựa chọn hành động phù hợp và tự điều chỉnh quá trình làm việc để hoàn thành mục tiêu một cách hiệu quả nhất.

Trong khi đó, Agentic AI (tạm dịch là AI có tính chủ động) là một nhánh nghiên cứu của trí tuệ nhân tạo tập trung vào việc phát triển những hệ thống có khả năng tự hoạt động như một thực thể độc lập. Mục tiêu của Agentic AI là giúp máy móc tự ra quyết định, tự lập kế hoạch, thực hiện nhiệm vụ và học hỏi từ kết quả, thay vì chỉ phản hồi theo lệnh của con người.

Có thể hiểu đơn giản rằng AI agents giống như một loại thuốc cụ thể được dùng để chữa một căn bệnh nhất định, còn Agentic AI chính là toàn bộ ngành khoa học dược, nơi các nhà nghiên cứu tạo ra, thử nghiệm và phát triển ra tất cả các loại thuốc khác nhau.

Hoàng Vũ

Nguồn Một Thế Giới: https://1thegioi.vn/claude-ai-bi-tay-nao-nhu-the-nao-de-phuc-vu-hacker-241242.html