Aeneas: Trí tuệ nhân tạo tái sinh văn bản La-tinh cổ

Một mô hình AI cho thấy sự kết hợp tối ưu giữa con người và máy học giúp giới sử học tiếp cận nhanh hơn với kho báu tri thức cổ đại từng bị thất lạc.

Một mô hình trí tuệ nhân tạo tiên tiến mang tên Aeneas đã chính thức được giới thiệu, mang theo kỳ vọng lớn lao trong việc hỗ trợ các nhà sử học khôi phục phần văn bản Latin đã bị mất, xác định nguồn gốc địa lý của văn bản, và ước lượng niên đại một cách chính xác. Sự ra đời của Aeneas được xem là bước tiến đột phá giúp giới nghiên cứu tiếp cận nhanh hơn với những di sản cổ đại bị thời gian bào mòn.

Mảnh bằng tốt nghiệp quân sự từ Sardinia. (Nguồn: Nature)

Mảnh bằng tốt nghiệp quân sự từ Sardinia. (Nguồn: Nature)

Aeneas được phát triển bởi một nhóm nghiên cứu gồm các chuyên gia đến từ DeepMind (Google) và các trường đại học tại Anh và Hy Lạp. Đây là công cụ kế thừa và mở rộng từ một dự án trước đó chuyên giải mã văn tự Hy Lạp cổ – tạo tiền đề cho việc tiếp cận các ngôn ngữ lịch sử ở tầm sâu hơn, với tốc độ và độ chính xác cao hơn.

Thách thức trong khảo cổ học ngôn ngữ

Việc nghiên cứu các văn bản khắc cổ, còn gọi là epigraphy, từ lâu đã là một lĩnh vực đầy thách thức. Những tài liệu cổ này thường bị mất chữ, mất từ hoặc thậm chí là cả đoạn văn dài. Thêm vào đó, ngôn ngữ cổ đại lại có sự biến đổi mạnh mẽ qua từng thời kỳ và từng vùng địa lý, khiến việc phân tích trở nên phức tạp.

Khoảng 1.500 dòng chữ Latinh được phát hiện mỗi năm, và Aeneas có thể giúp các nhà nghiên cứu tiết kiệm rất nhiều thời gian giải mã chúng. (Nguồn: Deepmind)

Khoảng 1.500 dòng chữ Latinh được phát hiện mỗi năm, và Aeneas có thể giúp các nhà nghiên cứu tiết kiệm rất nhiều thời gian giải mã chúng. (Nguồn: Deepmind)

Thông thường, các nhà sử học buộc phải so sánh các bản khắc hiện có với những văn bản từng được lưu giữ để tìm ra các đoạn nội dung tương đồng – một quá trình tốn thời gian và công sức. Bên cạnh đó, lượng văn bản mới được khai quật mỗi năm ngày một tăng nhanh, dẫn đến việc lượng thông tin vượt quá khả năng xử lý của một cá nhân.

Giáo sư Anne Rogerson, chuyên gia ngôn ngữ La-tinh tại Đại học Sydney (Úc), chia sẻ: "Có quá nhiều thông tin để một con người đơn lẻ có thể nắm hết. AI chính là cầu nối mà chúng tôi cần."

Ba mạng nơ-ron – Ba năng lực đặc biệt

Aeneas được huấn luyện trên một bộ dữ liệu khổng lồ gồm 176.861 văn bản khắc La-tinh có niên đại từ thế kỷ VII trước Công nguyên đến thế kỷ VIII sau Công nguyên. Trong số này, 5% có đính kèm hình ảnh, và tất cả các văn bản đều được gắn mã ID riêng để tra cứu nhanh chóng.

Mô hình Aeneas được xây dựng gồm ba mạng nơ-ron chuyên biệt, mỗi mạng đảm nhiệm một vai trò cụ thể, gồm: mạng thứ nhất chuyên phục hồi văn bản bị mất; mạng thứ hai dự đoán nguồn gốc địa lý của văn bản và mạng thứ ba ước lượng niên đại chính xác của văn bản

Đặc biệt, Aeneas không chỉ đưa ra kết quả dự đoán mà còn cung cấp danh sách các văn bản tương tự từ cơ sở dữ liệu để hỗ trợ các sử gia trong quá trình đối chiếu và phân tích. Theo nhà nghiên cứu Yannis Assael của DeepMind: "Aeneas có thể truy xuất các bản tương đồng từ toàn bộ cơ sở dữ liệu chỉ trong tích tắc, nhờ mỗi văn bản đều mang mã định danh riêng."

Mô hình hoạt động của Aeneas. (Nguồn: Deepmind)

Mô hình hoạt động của Aeneas. (Nguồn: Deepmind)

Con người + AI: Hiệu quả vượt trội

Nhằm kiểm chứng hiệu quả thực tế, nhóm nghiên cứu đã mời 23 chuyên gia khảo cổ thử nghiệm mô hình. Họ được giao nhiệm vụ phục hồi văn bản bị thiếu, xác định niên đại và địa điểm của các bản khắc – cả khi làm một mình và khi được hỗ trợ bởi Aeneas.

Kết quả cho thấy sự kết hợp giữa con người và máy học rất đáng khích lệ. Cụ thể, khi làm riêng lẻ, các chuyên gia sẽ có độ sai lệch trung bình lên tới 31 năm. Tuy nhiên khi các chuyên gia kết hợp kết quả AI và danh sách văn bản gợi ý, mức sai lệch chỉ còn khoảng 14 năm.

Ngoài ra, độ chính xác trong việc xác định nguồn gốc địa lý và phục hồi nội dung cũng tăng lên rõ rệt khi có sự hỗ trợ từ Aeneas.

Giáo sư Thea Sommerschield, một trong các đồng tác giả nghiên cứu, nhận định: “Sự kết hợp giữa nhà nghiên cứu và công cụ AI là chìa khóa. Không phải thay thế con người, mà là cùng nhau tối ưu hóa.”

Kết quả tốt nhất sẽ đạt được khi con người và mô hình máy học cùng làm việc. (Nguồn: Nature)

Kết quả tốt nhất sẽ đạt được khi con người và mô hình máy học cùng làm việc. (Nguồn: Nature)

Aeneas đang mở ra một chương mới trong hành trình kết hợp giữa công nghệ và khoa học nhân văn. Mô hình này không thay thế vai trò của các nhà sử học, mà đóng vai trò như một trợ lý thông minh, giúp họ tiếp cận kho tri thức cổ đại bị thất lạc một cách nhanh chóng, chính xác và toàn diện.

Trong kỷ nguyên dữ liệu và trí tuệ nhân tạo, các công cụ như Aeneas cho thấy tiềm năng lớn trong việc giải mã quá khứ để phục vụ tương lai, đưa nhân loại tiến gần hơn đến một nền văn minh hiểu rõ hơn về chính mình.

Minh Hoàn

Nguồn VTC: https://vtcnews.vn/aeneas-tri-tue-nhan-tao-tai-sinh-van-ban-la-tinh-co-ar956213.html