Agentic AI trở thành đồng phạm mới của giới hacker
Việc tự động hóa quá trình tương tác giữa bên tấn công và phòng thủ là nỗi lo lâu nay của các chuyên gia an ninh mạng, theo bà Mariarosaria Taddeo.
Mariarosaria Taddeo là giáo sư về đạo đức số và công nghệ quốc phòng tại Viện Internet Oxford, đồng thời là thành viên hội đồng cố vấn đạo đức AI của Bộ Quốc phòng Anh.
Viện Internet Oxford là một viện nghiên cứu thuộc Đại học Oxford (Anh), chuyên nghiên cứu về tác động của internet, công nghệ số, trí tuệ nhân tạo (AI) với xã hội, kinh tế và chính trị.
Bên dưới là nội dung bài viết của bà cho tờ FT có tiêu đề "Agentic AI trở thành đồng phạm mới của giới hacker":
Tháng này, công ty khởi nghiệp AI Anthropic (Mỹ) đã công bố một báo cáo đánh dấu bước ngoặt trong an ninh mạng. Lần đầu tiên một cuộc tấn công mạng gần như hoàn toàn tự động, được thực hiện bởi agentic AI. Chiến dịch này được quy cho GTG-1002, một nhóm hacker Trung Quốc.
Agentic AI (AI có tính chủ động) là loại trí tuệ nhân tạo có khả năng tự hành động để đạt mục tiêu, thay vì chỉ phản hồi thụ động theo yêu cầu của con người. Nói cách khác, agentic AI không chỉ trả lời mà còn tự lên kế hoạch, tự ra quyết định, tự thực hiện chuỗi hành động và có thể điều chỉnh hành vi theo môi trường thực tế.
Chi tiết của vụ tấn công rất đáng chú ý. Anthropic cho biết hacker đã sử dụng Claude Code, tác tử lập trình chủ động của công ty, để tự động hóa gần như toàn bộ quy trình cuộc tấn công. Sau khi nhận lệnh, AI đã xác định và khai thác lỗ hổng trong các mục tiêu giá trị cao, từ các tập đoàn công nghệ lớn đến các cơ quan chính phủ.
Theo Anthropic, AI đã tự thực hiện 80 - 90% các thao tác cần thiết, gồm trinh sát, quét lỗ hổng, khai thác, thu thập thông tin xác thực, phân tích dữ liệu và trích xuất dữ liệu. Sau khi nhận hướng dẫn cấp cao, nó điều phối các tác tử AI khác, hoạt động với tốc độ và quy mô mà không đội ngũ con người nào có thể sánh kịp. Người vận hành chỉ điều khiển tối đa khoảng 30 phút, phụ trách chiến lược; còn AI xử lý chiến thuật.
Báo cáo này vẫn chưa được kiểm chứng độc lập, song ngay lập tức gây chấn động trong giới an ninh mạng và những người làm quản trị AI.
Một lý do cho sự chấn động này vì nó cho thấy các cuộc tấn công vào hệ thống AI về bản chất mang tính thao túng. Mục đích là thay đổi hành vi của hệ thống AI thay vì chỉ đơn thuần chỉ làm gián đoạn.
Các cuộc tấn công mạng gây gián đoạn là mối đe dọa hiện hữu. Nhiều người có thể còn nhớ các cuộc tấn công mạng năm 2007 làm tê liệt Estonia hay vụ xâm phạm dữ liệu năm 2015 tại Văn phòng Quản lý Nhân sự Mỹ, làm rò rỉ dữ liệu của 21,5 triệu nhân viên và nhà thầu liên bang, gồm cả hơn 5,6 triệu bản ghi dấu vân tay. Các cuộc tấn công bằng AI còn đẩy vấn đề đi xa hơn thế.
Tháng 4.2007, chính phủ Estonia quyết định di dời tượng lính Hồng quân Liên Xô khỏi trung tâm thủ đô Tallinn. Quyết định này gây căng thẳng với Nga và làm bùng phát biểu tình của cộng đồng người Nga tại Estonia. Ngay sau đó, Estonia hứng chịu một chiến dịch tấn công mạng kéo dài gần 3 tuần. Cuộc tấn công chủ yếu là từ chối dịch vụ phân tán (DDoS), tức hacker điều khiển hàng chục nghìn máy tính bị nhiễm mã độc (botnet) để gửi lượng truy cập khổng lồ, làm tê liệt hệ thống.
Hacker nhắm vào gần như toàn bộ hạ tầng số của Estonia, gồm website chính phủ, Quốc hội, Bộ Ngoại giao, ngân hàng, hãng truyền thông, cổng thông tin dịch vụ công. Các hệ thống này bị đánh sập liên tục, khiến người dân không thể giao dịch ngân hàng, không đọc tin tức và nhiều dịch vụ nhà nước bị tê liệt.
Nhiều IP trong đợt tấn công xuất phát từ Nga. Một số yêu cầu điều tra của Estonia bị phía Nga từ chối hỗ trợ. Tuy nhiên, Nga phủ nhận dính líu trực tiếp vào vụ tấn công mạng này.
Về mặt an ninh, hệ thống AI rất mong manh. Việc điều chỉnh hành vi của chúng đôi khi chỉ cần một câu lệnh tinh vi hoặc chỉnh sửa một phần rất nhỏ trong dữ liệu huấn luyện. Trong trường hợp của Anthropic, agentic AI bị nhắm mục tiêu để làm gián điệp. Thế nhưng, hãy tưởng tượng thiệt hại có thể xảy ra thế nào bởi việc thao túng một mô hình AI được sử dụng để nhận dạng mục tiêu trên chiến trường.
Mối đe dọa không chỉ dừng lại ở vấn đề an ninh mạng, mà còn có thể làm mất ổn định ở mức độ rộng hơn, chẳng hạn cấp độ quốc gia.
Thời điểm mà các hệ thống AI phản ứng trực tiếp với nhau, gợi lên nguy cơ leo thang nhanh chóng và mất kiểm soát, đang đến gần. Điều này từng được hé lộ trong Cyber Grand Challenge năm 2016, nơi 7 hệ thống tự động chiến đấu trong một trò chơi chiến tranh, vừa tìm lỗ hổng của nhau, vừa tấn công và tự vá lỗi trong thời gian thực. Việc tự động hóa động thái tấn công - phòng thủ là nỗi lo lâu nay của các chuyên gia an ninh mạng, vì có thể vượt qua sự giám sát của con người khi nhịp độ tác chiến tăng tốc.
Cyber Grand Challenge là cuộc thi an ninh mạng do DARPA (Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến của Bộ Quốc phòng Mỹ) tổ chức.

Bà Mariarosaria Taddeo là giáo sư về đạo đức số và công nghệ quốc phòng tại Viện Internet Oxford - Ảnh: Internet
Vấn đề không chỉ giới hạn ở quyền kiểm soát. Các cuộc tấn công mạng ngày càng phục vụ cho các mục đích địa chính trị. Xu hướng này khó có khả năng đảo ngược: Nhiều thành viên NATO, gồm cả Mỹ, Anh và Ý, hiện đều vận hành đơn vị tấn công mạng chủ động. Khi AI trở thành công cụ của chính sách quốc gia, các cuộc tấn công mạng mang tính chủ động sẽ làm gia tăng sự bất ổn trong một tình hình vốn đã mong manh.
Rủi ro này cũng lan đến từng công dân. Trong không gian mạng, tấn công luôn có lợi thế hơn phòng thủ. Các cuộc tấn công bằng agentic AI làm trầm trọng thêm sự bất đối xứng này bằng cách cắt giảm mạnh chi phí về nhân lực, tài chính và kỹ thuật để thực hiện một cuộc xâm nhập. Để đối phó, bên phòng thủ đang áp dụng AI để củng cố hệ thống, giám sát cơ sở hạ tầng và theo dõi cả hành vi người dùng, nhằm phát hiện mối đe dọa.
Hiện nay, các hệ thống AI thường được dùng để giám sát mạng bằng cách phát hiện những hành vi khác thường so với thói quen của nhân viên và hệ thống. Trong một số trường hợp, AI còn có thể cô lập thiết bị ngay khi phát hiện nguy cơ. Để làm vậy, chúng lọc qua file, email, hoạt động đầu cuối và mô hình lưu lượng truy cập trên toàn hệ thống.
Một số công ty còn tiến xa hơn, sử dụng đặc điểm sinh trắc học hành vi để xác thực người dùng dựa trên cách họ gõ phím hoặc di chuột. Những công ty khác thu thập dữ liệu cảm biến và tương tác giữa người với thiết bị. Mọi thao tác, cử chỉ hay độ nghiêng thiết bị đều được dùng để tạo hồ sơ ngày càng chi tiết. Những gì bắt đầu là phát hiện bất thường có nguy cơ kết thúc bằng sự giám sát toàn diện.
An ninh mạng không phải là cuộc đua có đích đến. Chúng ta không bao giờ chiến thắng một lần và mãi mãi, mà chỉ tạm thời giữ thế cân bằng. Nguy cơ là nỗ lực lấy lại lợi thế từ tay tội phạm mạng sẽ đẩy hệ thống phòng thủ từ theo dõi thông thường sang giám sát đại trà. Theo nghĩa này, agentic AI không chỉ định hình lại bức tranh an ninh mạng, mà sẽ định nghĩa lại cái giá chúng ta sẵn sàng trả để theo đuổi sự an toàn trong các nền dân chủ tự do.













