AI phá mật mã cổ, hé lộ những bí mật chưa từng được đọc suốt hàng trăm năm

Trong các thư viện và kho lưu trữ trên khắp thế giới, có những thông điệp và tài liệu lịch sử ẩn sau các mật mã khó hiểu. Trí tuệ nhân tạo (AI) đang giúp các nhà sử học giải mã những văn bản bí ẩn này.

Một đoạn văn bản viết bằng mật mã. Ảnh: Beáta Megyesi

Một đoạn văn bản viết bằng mật mã. Ảnh: Beáta Megyesi

Theo kênh BBC ngày 28/5, sâu trong kho lưu trữ của Thư viện Vatican, một cuốn sách viết tay bí ẩn đầy những ký hiệu kỳ lạ đã nằm im không người đọc suốt hơn 400 năm. Những trang sách khó hiểu dường như che giấu các bài thuốc bí mật chữa những căn bệnh của con người. Những phương pháp chữa bệnh như vậy từng bị giữ kín vì có thể làm dấy lên nghi ngờ hoặc thậm chí dẫn tới cáo buộc phù thủy.

Được gọi là mật mã Borg, bản thảo dài 408 trang này hầu như không ai đọc được. Văn bản được mã hóa bằng 34 ký hiệu khó hiểu cùng một số chữ cái La Mã và trang đầu được viết bằng tiếng Arab. Không có chìa khóa nào để giải mã nội dung đằng sau. Một số trang cũng bị hư hỏng theo thời gian, khiến việc đọc mã càng khó khăn hơn.

Tuy nhiên, với sự hỗ trợ của học máy, các nhà nghiên cứu đã giải mã được văn bản này. Họ phát hiện nội dung chứa hàng nghìn phương pháp điều trị kỳ lạ, như uống nhiều ly rượu vang đỏ chất lượng cao hoặc ủ hạt nhục đậu khấu trong bột nhào để chữa bệnh lỵ.

Bà Beáta Megyesi, Giáo sư ngôn ngữ học tính toán tại Đại học Stockholm ở Thụy Điển và là thành viên nhóm giải mã văn bản, cho biết: “Điều này giống như công việc của thám tử, nơi mỗi ký hiệu, mô hình và lời giải từng phần đều có thể đưa chúng tôi đến gần hơn với những bí mật của một ai đó và một thế giới lịch sử đã mất”.

Ngay cả khi có AI hỗ trợ, quá trình giải mã vẫn rất gian nan.

Hiện nay, bà Megyesi và các đồng nghiệp đang dẫn đầu nỗ lực tận dụng sức mạnh AI để phá giải các mật mã lịch sử, mở ra khả năng tiếp cận kho thông tin được mã hóa trong quá khứ mà trước đây gần như không thể giải mã.

Theo một số ước tính, khoảng 1% tài liệu trong các kho lưu trữ và thư viện trên toàn thế giới được mã hóa toàn bộ hoặc một phần. Một số mật mã cổ nhất được biết đến có niên đại từ thời Hy Lạp và La Mã cổ đại.

Mồi nhử, ngôn ngữ chết và chữ viết khó đọc

Các tài liệu lịch sử được mã hóa che giấu thông tin tình báo ngoại giao, nghi thức của các hội kín, kiến thức y học, chuyện tình cảm hoặc các chi tiết đời thường mà con người muốn giữ bí mật. Đây là những thông tin còn thiếu trong các ghi chép lịch sử hiện nay.

Trong một số trường hợp, việc giải mã các tài liệu này có thể làm thay đổi hiểu biết của con người về một nhân vật nổi tiếng hoặc cả một giai đoạn lịch sử. Một ví dụ gần đây là bộ thư mã hóa được xác định do Nữ hoàng Mary I của Scotlands viết trong thời gian dài bị giam giữ tại Anh. Những bức thư hé lộ vai trò của bà trong các âm mưu giành lại ngai vàng và mối quan hệ căng thẳng với con trai là James VI và I.

Các mật mã lịch sử đôi khi tương đối đơn giản. Ví dụ, mật mã Borg sử dụng phương pháp thay thế ký tự, nghĩa là mỗi ký hiệu tương ứng với một chữ cái La Mã để che giấu nội dung. Tuy nhiên, một số mật mã khác cực kỳ khó phá giải.

Trong vài trường hợp, giới nghiên cứu thậm chí không biết ngôn ngữ gốc của văn bản chưa mã hóa. Một số ký hiệu vô nghĩa còn được thêm vào làm mồi nhử nhằm đánh lạc hướng những người cố giải mã. Ở những trường hợp khác, nhiều ký hiệu khác nhau lại cùng đại diện cho một chữ cái.

Điều này khiến công việc giải mã trở nên vô cùng tốn thời gian và thường phải thử sai liên tục để giải được chỉ một đoạn văn ngắn.

Bà Cecile Pierrot, nhà mật mã học tại Viện Nghiên cứu Khoa học Máy tính Quốc gia Pháp ở Nancy, cùng các đồng nghiệp đã mất sáu tháng để dần giải mã bức thư 500 năm tuổi của Charles V, Hoàng đế La Mã Thần thánh kiêm Vua Tây Ban Nha. Bức thư được viết bằng 120 ký hiệu mật mã khác nhau trên ba trang giấy.

Bức thư sau khi giải mã cho thấy Charles V (một trong những người quyền lực nhất thời đại) đã bị nỗi sợ ám sát chi phối. Nhà vua lo ngại một thủ lĩnh lính đánh thuê Italy phục vụ Vua Francis I của Pháp chuẩn bị sát hại ông.

Trước khi bắt đầu giải mã, các nhà nghiên cứu phải tỉ mỉ chuyển văn bản viết tay thành tài liệu số để đưa vào phần mềm phá mã. Chữ viết khó đọc và mực phai màu khiến công việc càng phức tạp.

Bà Pierrot cho biết bà thường mất cả ngày chỉ để chép lại một bức thư dài hai trang chứa những ký hiệu xa lạ.

AI giúp tăng tốc giải mã bí mật

Tuy nhiên, AI đang bắt đầu đẩy nhanh quá trình này.

Bà Michelle Waldispühl, Giáo sư ngôn ngữ học Đức tại Đại học Oslo ở Na Uy, cùng các đồng nghiệp gần đây đã sử dụng nền tảng AI trực tuyến Transkribus để chép lại một bức thư mật do nhà quý tộc Sigismund Heusner von Wandersleben gửi cho Đại pháp quan Thụy Điển Axel Oxenstierna năm 1637, vào cao điểm của Chiến tranh Ba mươi năm - cuộc xung đột tôn giáo khiến hàng triệu người thiệt mạng và tàn phá nhiều khu vực ở châu Âu.

Công cụ này được huấn luyện trên nhiều ngôn ngữ, kiểu chữ và phong cách viết tay qua nhiều thế kỷ. Sau khi hình ảnh tài liệu được tải lên, AI sẽ nhận diện các khối văn bản và từng dòng trước khi quét từng ký tự để chuyển thành dạng số.

Dù vẫn cần chỉnh sửa thủ công, nhưng công cụ hoạt động khá hiệu quả với bức thư của Von Wandersleben vì chỉ một phần được mã hóa bằng các con số ngăn cách bằng dấu chấm và được viết rõ ràng. Các phần còn lại được viết bằng chữ Đức thế kỷ 17.

Các nền tảng AI hiện nay thường gặp khó khăn khi bản thảo sử dụng các ký hiệu bất thường như ký hiệu tự tạo, biểu tượng chiêm tinh học hoặc các con số viết theo cách lạ.

Tuy nhiên, bà Megyesi, bà Waldispühl và các đồng nghiệp đang phát triển công cụ AI riêng trong khuôn khổ dự án đa quốc gia Descrypt nhằm chuyển đổi các văn bản lịch sử viết tay chứa ký hiệu khó hiểu thành tài liệu máy có thể đọc được.

Sau khi tài liệu mật được số hóa, công việc “thám tử” mới bắt đầu.

Hiện nay, các nhà mật mã học thường sử dụng phần mềm máy tính chuyên dụng để hỗ trợ giải mã. Các thuật toán sẽ cố xác định loại mật mã được sử dụng và phá mã. Những mật mã đơn giản có thể được giải bằng cách phân tích tần suất xuất hiện của ký hiệu và đối chiếu với tần suất chữ cái trong một ngôn ngữ.

Ví dụ, trong tiếng Anh, chữ E xuất hiện nhiều nhất, còn Z, Q và X ít xuất hiện nhất.

Tuy nhiên, trong bức thư của Von Wandersleben từ tiền tuyến Chiến tranh Ba mươi năm, ông đã sử dụng tới tám ký hiệu khác nhau để đại diện cho chữ E. Điều này buộc các nhà nghiên cứu phải liên tục thử sai kết hợp với hiểu biết của bà Waldispühl về tiếng Đức cổ để dần phá mã.

Ẩn sau lớp mật mã là những cảnh báo của Von Wandersleben về mối đe dọa từ các phe phái trong liên minh Tin Lành của Thụy Điển. Ông cho biết mình buộc phải rút lui chiến lược khỏi cuộc chiến sau khi được thông báo về một âm mưu trong nội bộ đồng minh,.

Phá lại các mật mã bí ẩn tồn đọng

Hiện nhóm của bà Megyesi đang nghiên cứu khả năng để AI bỏ qua hoàn toàn bước chép lại văn bản, bằng cách phân tích trực tiếp ảnh chụp các trang tài liệu để giải mã thông điệp bí mật.

Họ gần đây đã chứng minh phương pháp này có thể hoạt động với các loại mật mã đơn giản, trong đó mỗi chữ cái được thay bằng một ký hiệu duy nhất.

Nhóm nghiên cứu thử nghiệm hệ thống trên bản thảo dài 105 trang mang tên mật mã Copiale, vốn đã được họ giải mã trước đó. Văn bản này mô tả nghi lễ, quy tắc và lý tưởng của một hội kín Đức thế kỷ 18.

Sau khi huấn luyện AI bằng chữ viết tay thông thường, rồi bổ sung hình ảnh các dòng mật mã và bản tiếng Đức đã giải mã tương ứng, hệ thống có thể giải chính xác các phần văn bản chưa từng thấy trước đó.

Theo bà Megyesi, hệ thống như vậy đặc biệt hữu ích khi ngôn ngữ gốc của mật mã chưa được xác định.

Bà Waldispühl và các đồng nghiệp cũng đang tìm kiếm các bản thảo mật mã trong những kho lưu trữ cũ để xây dựng cơ sở dữ liệu. Điều này rất quan trọng nhằm thu thập đủ dữ liệu huấn luyện AI có khả năng phá mã.

Các mô hình ngôn ngữ lớn đứng sau chatbot AI như ChatGPT được huấn luyện trên hàng nghìn tỷ từ trong sách, bài báo và trang web. Tuy nhiên, việc tìm lượng dữ liệu tương đương cho nhiệm vụ phá mã là rất khó.

Trong số tài liệu thu thập được có 400 bưu thiếp bí ẩn viết bằng chữ mã hóa từ cuối thế kỷ 19 tới đầu thế kỷ 20. Một số đoạn đã giải mã cho thấy đây là các bức thư tình viết bằng tiếng Đức.

Nhóm của bà Megyesi đã phát triển một công cụ AI dạng chatbot kết hợp phiên âm và giải mã trong cùng một bước.

Chatbot này kết hợp các thuật toán giải mã được huấn luyện trên cặp ký tự mật mã và văn bản tương ứng, cùng các mô hình ngôn ngữ lớn được huấn luyện trên văn bản lịch sử từ nhiều giai đoạn khác nhau để đưa ra manh mối về mã hóa. Các thuật toán nhận diện hình ảnh được huấn luyện trên chữ viết tay chú thích cũng được tích hợp.

Công cụ AI còn có khả năng tự cải thiện bằng cách tiếp nhận các chỉnh sửa từ chuyên gia sử dụng hệ thống.

Ý tưởng là các nhà nghiên cứu, hoặc thậm chí công chúng, có thể đưa một văn bản lịch sử mã hóa cho chatbot và để hệ thống tiết lộ nội dung.

Mật mã Borg có niên đại khoảng 400 năm, chứa các ký hiệu mật mã kỳ lạ cùng một số chữ Latinh dài 408 trang. Ảnh: Biblioteca Apostolica Vaticana

Mật mã Borg có niên đại khoảng 400 năm, chứa các ký hiệu mật mã kỳ lạ cùng một số chữ Latinh dài 408 trang. Ảnh: Biblioteca Apostolica Vaticana

Khi thử nghiệm chatbot AI với mật mã Borg, bà Megyesi và các đồng nghiệp phát hiện hệ thống có thể dịch và giải mã đoạn trích 500 ký hiệu chỉ trong hơn 29 phút. Hệ thống thậm chí còn cung cấp bản dịch tiếng Anh.

Quan trọng hơn, công cụ cũng ghi lại toàn bộ quá trình và giải thích vì sao lời giải được xem là hợp lý. Điều này giúp bảo đảm AI không “ảo giác” hoặc tự bịa ra cách diễn giải.

Những công cụ AI như vậy có thể đóng vai trò then chốt trong việc phá giải các mật mã lịch sử vốn chưa thể giải được cho tới nay. Chúng cũng sẽ hỗ trợ nghiên cứu các văn bản cổ viết bằng bảng chữ cái mà ngày nay không ai còn đọc được.

Thùy Dương/Báo Tin tức và Dân tộc

Nguồn Tin Tức TTXVN: https://baotintuc.vn/ho-so/ai-pha-mat-ma-co-he-lo-nhung-bi-mat-chua-tung-duoc-doc-suot-hang-tram-nam-20260529175559102.htm