Lập trình viên tái dựng kiến trúc mô hình AI bí ẩn nhất của Anthropic
OpenMythos nỗ lực tái dựng kiến trúc Claude Mythos - mô hình AI có khả năng an ninh mạng mạnh mẽ mà Anthropic không phát hành công khai.
Anthropic không cho chúng ta thấy những gì bên trong Claude Mythos - mô hình AI nguy hiểm và bí ẩn nhất của hãng. Song mới đây, lập trình viên Kye Gomez đã công bố OpenMythos, bản tái tạo mã nguồn mở về cách anh hình dung kiến trúc Claude Mythos.
Kho mã OpenMythos của Kye Gomez đã nhận được hơn 10.000 sao trên GitHub chỉ trong vài tuần sau khi ra mắt, kèm theo file readme rất chi tiết với đầy đủ phương trình, trích dẫn và một tuyên bố rõ ràng rằng nó không liên quan gì đến Anthropic. Thế nhưng, đó chỉ là suy đoán có cấu trúc của Kye Gomez dưới dạng mã nguồn.

Kye Gomez tái dựng kiến trúc Claude Mythos của Anthropic dưới dạng mã nguồn mở - Ảnh: SV
Claude Mythos lộ diện cuối tháng 3, khi Anthropic vô tình để rò rỉ các tài liệu nháp mô tả đây là mô hình AI mạnh nhất của họ từ trước đến nay, vượt trên cả Opus.
Hôm 7/4, Anthropic công bố phiên bản Claude Mythos Preview có khả năng xuất sắc trong việc phát hiện và khai thác các lỗ hổng an ninh mạng, gây ra phản ứng toàn cầu chưa từng có từ các nhà hoạch định chính sách và cơ quan quản lý.
Theo Anthropic, Claude Mythos có tính tự chủ cực cao và khả năng suy luận tinh vi, tương đương chuyên gia nghiên cứu bảo mật cấp cao. Nó có thể phát hiện hàng chục nghìn lỗ hổng bảo mật mà ngay cả những chuyên gia săn lỗi hàng đầu cũng khó tìm ra.
Trong quá trình thử nghiệm của Anthropic, Claude Mythos đã phát hiện lỗi trong mọi hệ điều hành và trình duyệt web lớn, gồm cả những lỗ hổng tồn tại hàng chục năm mà các cuộc kiểm tra bảo mật do con người thực hiện trước đó không phát hiện ra.
Thay vì phát hành công khai, Anthropic cung cấp phiên bản Claude Mythos Preview cho nhóm 11 tổ chức chọn lọc trong khuôn khổ Dự án Glasswing của Anthropic, gồm Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, Linux Foundation, Microsoft, Nvidia, Palo Alto Networks, JPMorgan Chase.
Anthropic tiết lộ đã mở rộng quyền truy cập Claude Mythos Preview cho khoảng 40 tổ chức khác chịu trách nhiệm về hạ tầng phần mềm quan trọng. Theo Anthropic, mục tiêu lâu dài của công ty là giúp người dùng có thể triển khai các mô hình AI mạnh mẽ như Claude Mythos một cách an toàn và trên quy mô lớn, kể cả cho các mục đích ngoài an ninh mạng.
Theo trang Axios, Cơ quan An ninh Quốc gia Mỹ (NSA) cùng nhiều cơ quan chính phủ khác cũng đã bắt đầu sử dụng Claude Mythos Preview.
Trước thực tế đó, Kye Gomez đã tìm cách suy đoán cách Claude Mythos hoạt động.
Kye Gomez cho rằng Claude Mythos sử dụng kiến trúc Recurrent-Depth Transformer, còn gọi là transformer lặp. Bình thường, các mô hình AI sẽ có rất nhiều lớp khác nhau xếp chồng lên nhau (ví dụ 100 - 200 lớp), mỗi lớp xử lý dữ liệu một lần rồi chuyển tiếp.
Còn transformer lặp thì khác. Thay vì có nhiều lớp khác nhau, kiến trúc này dùng một nhóm lớp nhỏ hơn nhưng chạy đi chạy lại nhiều lần.
Transformer là kiến trúc mô hình AI dùng trong học máy, đặc biệt phổ biến trong xử lý ngôn ngữ tự nhiên (NLP) như dịch thuật, chatbot hay viết văn bản. Nói dễ hiểu hơn, transformer là “bộ khung” giúp AI đọc và hiểu dữ liệu bằng cách chú ý vào những phần quan trọng trong câu thay vì đọc tuần tự từng chữ như các mô hình AI cũ.
Nhờ transformer, các chatbot AI hiện đại như ChatGPT, Claude hay Gemini mới có thể hiểu ngữ cảnh tốt hơn, trả lời tự nhiên hơn và xử lý được những đoạn văn dài phức tạp.
2 đặc điểm kỳ lạ nhất của mô hình AI Claude Mythos
Kho mã OpenMythos lập luận rằng điều này có thể giải thích 2 đặc điểm kỳ lạ nhất của Claude Mythos: có thể suy luận những vấn đề hoàn toàn mới mà các mô hình AI khác không làm được, nhưng khả năng ghi nhớ thô lại không đồng đều. Đó là dấu hiệu đặc trưng của kiến trúc dạng lặp, ưu tiên sự kết hợp hơn là lưu trữ.
Ghi nhớ thô là cách nói đơn giản để chỉ việc mô hình AI nhớ lại trực tiếp dữ liệu từng thấy, gần như kiểu “học thuộc lòng”, thay vì hiểu sâu hay suy luận.
OpenMythos trích dẫn bài viết hồi tháng 4/2026 từ Đại học California San Diego (Mỹ) và công ty khởi nghiệp Together AI về giải quyết vấn đề bất ổn định lâu dài trong các mô hình AI vòng lặp. Bài viết nêu mô hình Parcae với 770 triệu tham số có chất lượng tương đương với mô hình transformer có độ sâu cố định 1,3 tỉ tham số, với quy luật mở rộng có thể dự đoán được về số vòng lặp cần chạy.
Ngoài ra, OpenMythos còn mượn thêm một số kỹ thuật khác, như dùng cơ chế Multi-Latent Attention của DeepSeek để nén và quản lý bộ nhớ hiệu quả hơn, đồng thời áp dụng kiến trúc MoE để xử lý tốt nhiều lĩnh vực khác nhau.
MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia (expert), mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này giúp giảm đáng kể chi phí điện toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.
Vì sao OpenMythos đáng chú ý?
Lý do OpenMythos gây chú ý là vì đây là lần thứ hai chỉ trong một tháng có người “đục thủng” phần nào bức tường bao quanh Claude Mythos. Trước đó, nghiên cứu của phòng nghiên cứu bảo mật AI Vidoc Security đã tái tạo việc phát hiện nhiều lỗ hổng đáng lo do Claude Mythos thực hiện bằng cách dùng mô hình sẵn có như GPT-5.4 và Claude Opus 4.6 trong một tác tử AI mã nguồn mở. Họ không cần quyền truy cập vào Dự án Glasswing và chi phí mỗi lần quét chỉ dưới 30 USD. Cách làm khác nhau nhưng cùng đi đến một kết luận: rào cản bảo vệ Claude Mythos có thể không vững như Anthropic quảng bá.
Tuy vậy, OpenMythos và nghiên cứu của Vidoc Security thực chất làm hai việc khác nhau. Vidoc Security tái tạo kết quả đầu ra của Claude Mythos, tức là các lỗ hổng mà nó tìm ra, bằng những mô hình AI hiện có. Còn OpenMythos lại cố gắng tái tạo cách Claude Mythos được xây dựng, tức kiến trúc bên trong tạo ra những kết quả đó.
Một bên cho thấy không cần Claude Mythos vẫn có thể tìm ra các lỗ hổng bảo mật đáng lo ngại tương tự. Bên kia gợi ý rằng về lâu dài, con người có thể tự xây dựng mô hình AI giống Claude Mythos.











