Cơ chế bảo vệ Grok 4 của Elon Musk bị xuyên thủng sau 48 giờ
Mô hình trí tuệ nhân tạo (AI) Grok 4 của Elon Musk đã bị xâm nhập chỉ sau 48 giờ phát hành. Các nhà nghiên cứu từ NeuralTrust đã kết hợp hai kỹ thuật Echo Chamber và Crescendo để qua mặt các biện pháp bảo vệ, phơi bày những lỗ hổng nghiêm trọng trong an ninh AI.
NeuralTrust là hãng công nghệ chuyên về an ninh và kiểm soát AI tạo sinh, đặc biệt là các mô hình ngôn ngữ lớn.
NeuralTrust cung cấp giải pháp toàn diện cho các tổ chức muốn tích hợp công nghệ AI tạo sinh vào sản phẩm cùng quy trình của họ một cách an toàn và hiệu quả. Nền tảng của NeuralTrust gồm các giải pháp về:
Bảo mật: Giúp bảo vệ các mô hình AI khỏi các cuộc tấn công và lỗ hổng bảo mật.
Phân tích: Cung cấp khả năng theo dõi và phân tích hiệu suất của các ứng dụng AI.
Tuân thủ: Đảm bảo các ứng dụng AI tuân thủ các quy định và tiêu chuẩn liên quan.
Các sản phẩm và công nghệ đáng chú ý của NeuralTrust
AI Gateway: Được thiết kế để quản lý các ứng dụng AI với khả năng bảo mật, kiểm soát và khả năng quan sát nâng cao. AI Gateway đề cập đến một lớp trung gian (cổng kết nối) giữa người dùng hoặc ứng dụng và mô hình AI phía sau. Đây là nơi kiểm soát, giám sát và xử lý mọi tương tác với AI. NeuralTrust tự hào có AI Gateway mã nguồn mở nhanh nhất trên thị trường.
Automated Red Teaming: Công cụ tự động phát hiện các lỗ hổng và ảo giác (đưa ra thông tin sai nhưng giống như thật) trong các hệ thống AI.
Được thành lập vào năm 2022 và có trụ sở tại thành phố Barcelona (Tây Ban Nha), NeuralTrust đang nỗ lực để trở thành giải pháp đáng tin cậy cho các đội ngũ bảo mật và AI, giúp doanh nghiệp kiểm soát và phát triển các sản phẩm, công cụ dựa trên AI một cách tự tin.
Grok 4, mô hình AI mới của công ty khởi nghiệp xAI do Elon Musk điều hành, đã bị các nhà nghiên cứu tại NeuralTrust xâm nhập chỉ hai ngày sau khi phát hành.
Báo cáo cho thấy nhóm nghiên cứu của NeuralTrust đã áp dụng một phương pháp mới, kết hợp giữa kỹ thuật Echo Chamber và Crescendo, để lách qua các cơ chế bảo vệ tích hợp trong Grok 4. Qua đó, họ đã buộc được Grok 4 đưa ra hướng dẫn chế tạo các vật dụng nguy hiểm, chẳng hạn bom xăng.
Nhóm nghiên cứu NeuralTrust do Ahmad Alobaid dẫn đầu phát hiện rằng việc kết hợp các loại jailbreak (phương pháp vượt rào bảo mật) khác nhau giúp tăng đáng kể hiệu quả tấn công.
Jailbreak trong ngữ cảnh AI là hình thức tấn công hoặc thao túng để vượt qua các rào cản bảo mật và buộc mô hình ngôn ngữ lớn thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Khi tiến trình tấn công bằng Echo Chamber bị đình trệ, họ chuyển sang kỹ thuật Crescendo (do Microsoft phát hiện và đặt tên) có cách tiếp cận tinh vi hơn, dần dần chuyển hướng cuộc thảo luận từ những câu hỏi vô hại sang các nội dung bất hợp pháp, từ đó vượt qua các bộ lọc bảo mật bằng thông qua sự phát triển đối thoại tinh vi.

Các nhà nghiên cứu của NeuralTrust vượt rào bảo vệ Grok 4 của Elon Musk chỉ sau 48 giờ sau khi mô hình AI này ra mắt - Ảnh: Internet
Quy trình tấn công
Một chỉ dẫn độc hại được đưa vào Echo Chamber. Hệ thống cố gắng tạo phản hồi và nếu không chống lại được chỉ dẫn độc hại thì sẽ trải qua giai đoạn “thuyết phục” (Phản hồi -> Thuyết phục -> Chống lại) cho đến khi đạt ngưỡng hoặc cuộc đối thoại trở nên không hiệu quả.
Nếu đối thoại rơi vào bế tắc, phương pháp Crescendo sẽ được kích hoạt, cũng gồm các chu kỳ phản hồi và thuyết phục. Nếu giai đoạn Echo Chamber hoặc Crescendo đạt được thành công, nỗ lực xâm nhập mô hình AI sẽ thành công, còn ngược lại thì thất bại.
Phương pháp kết hợp này đã đánh lừa bộ nhớ của Grok-4 bằng cách lặp lại chính các phản hồi trước đó của nó, rồi dần dẫn dắt mô hình AI đến một mục tiêu độc hại mà không kích hoạt báo động.
Phần Echo Chamber, vốn rất thành công trong các hệ thống AI khác để thúc đẩy ngôn ngữ kích động thù địch và bạo lực, đã khiến cuộc tấn công trở nên mạnh mẽ hơn.
Theo báo cáo, Grok 4 đã cung cấp hướng dẫn chế tạo bom xăng 67% số lần, methamphetamine (loại ma túy tổng hợp kích thích thần kinh cực mạnh) 50% số lần và chất độc 30% số lần.
Những “cuộc tấn công âm thầm” này không dùng từ khóa rõ ràng, khiến các biện pháp bảo vệ mô hình AI hiện tại, vốn chủ yếu dựa vào danh sách từ cấm và kiểm tra nội dung đầu vào trực tiếp, trở nên vô hiệu.
Điều đó cho thấy một vấn đề nghiêm trọng: Các mô hình AI cần hiểu toàn bộ ngữ cảnh cuộc trò chuyện thay vì chỉ kiểm tra từ ngữ riêng lẻ để ngăn chặn hành vi lạm dụng.
Lỗ hổng này phản ánh lại những lo ngại trước đây bởi các kiểu thao túng tương tự như cuộc tấn công Skeleton Key của Microsoft và kỹ thuật vượt rào MathPrompt, cho thấy sự cần thiết cấp bách của các tường lửa mạnh mẽ hơn, có khả năng nhận thức và hiểu biết về AI.
Skeleton Key là kỹ thuật vượt rào bảo mật mô hình ngôn ngữ lớn, cho phép vượt qua các cơ chế kiểm duyệt và giới hạn an toàn của AI bằng cách ẩn nội dung độc hại trong ngữ cảnh tưởng như vô hại.
MathPrompt là kỹ thuật vượt rào bảo mật các mô hình ngôn ngữ lớn được phát hiện vào năm 2024. Đây là một hình thức tấn công tinh vi, khai thác cách AI xử lý các yêu cầu toán học để lén lút chèn chỉ dẫn nguy hiểm mà không bị hệ thống phát hiện.
"AI thông minh nhất thế giới"?
Hôm 10.7, xAI đã ra mắt mô hình Grok 4 chỉ vài ngày sau khi chatbot AI của công ty này bị phát hiện nhiều lần ca ngợi Adolf Hitler và lan truyền những phát ngôn bài Do Thái trên mạng xã hội X. Trong các bài đăng của mình trên mạng xã hội X, xAI đã cam kết sẽ cấm các phát ngôn thù hận.
Trong buổi livestream trên X hôm 10.7, Elon Musk khẳng định Grok 4 là "AI thông minh nhất thế giới".
Tự ca ngợi những ưu điểm của mô hình AI này, tỷ phú giàu nhất thế giới cho rằng nếu Grok 4 tham gia SAT (kỳ thi chuẩn hóa trong xét tuyển vào đại học) thì sẽ đạt điểm tuyệt đối mỗi lần và thậm chí vượt qua hầu hết sinh viên tốt nghiệp đại học ở mọi lĩnh vực.
"Grok 4 thông minh hơn gần như tất cả sinh viên tốt nghiệp đại học ở mọi lĩnh vực. Đó là điều thực sự đáng kinh ngạc", Elon Musk tuyên bố.