Ảo giác AI tạo ra hơn 4.000 trích dẫn giả, tri thức nhân loại đang bị 'đầu độc'?

Điều gì xảy ra khi những nghiên cứu chưa từng tồn tại bắt đầu được trích dẫn trong các bài báo khoa học? Các phát hiện mới cho thấy hiện tượng 'ảo giác AI' đang len lỏi vào quy trình sản xuất tri thức toàn cầu. Cuộc khủng hoảng không còn nằm ở công nghệ, mà ở niềm tin dành cho chính hệ thống sản xuất tri thức hiện đại.

Hơn 4.000 trích dẫn giả đã được phát hiện trong các bài báo khoa học. Nhưng đó có thể chỉ là phần nổi của tảng băng chìm. Những nghiên cứu mới nhất cho thấy hiện tượng "ảo giác AI" đang len lỏi vào hệ thống xuất bản học thuật với quy mô lớn chưa từng có, đặt ra câu hỏi nghiêm trọng về độ tin cậy của tri thức trong kỷ nguyên trí tuệ nhân tạo.

Từ trái sang: Edward Tian, đồng sáng lập kiêm CEO của GPTZero, cùng với CTO kiêm đồng sáng lập Alex Cui. Công ty khởi nghiệp GPTZero của Canada đã phân tích hơn 4.000 bài nghiên cứu được chấp nhận và trình bày tại NeurIPS (Hệ thống xử lý thông tin thần kinh) 2025. Báo cáo này cho biết một số trường hợp, mô hình AI đã kết hợp hoặc diễn giải lại các yếu tố từ nhiều bài báo thực tế, bao gồm cả các tiêu đề và danh sách tác giả nghe có vẻ đáng tin cậy, công ty cho biết. Những trường hợp khác dường như hoàn toàn được bịa đặt: Một tác giả không tồn tại, một tiêu đề bài báo giả mạo, một tạp chí hoặc hội nghị giả, hoặc một URL dẫn đến không có gì.

Từ trái sang: Edward Tian, đồng sáng lập kiêm CEO của GPTZero, cùng với CTO kiêm đồng sáng lập Alex Cui. Công ty khởi nghiệp GPTZero của Canada đã phân tích hơn 4.000 bài nghiên cứu được chấp nhận và trình bày tại NeurIPS (Hệ thống xử lý thông tin thần kinh) 2025. Báo cáo này cho biết một số trường hợp, mô hình AI đã kết hợp hoặc diễn giải lại các yếu tố từ nhiều bài báo thực tế, bao gồm cả các tiêu đề và danh sách tác giả nghe có vẻ đáng tin cậy, công ty cho biết. Những trường hợp khác dường như hoàn toàn được bịa đặt: Một tác giả không tồn tại, một tiêu đề bài báo giả mạo, một tạp chí hoặc hội nghị giả, hoặc một URL dẫn đến không có gì.

"Ảo giác AI" không chỉ là 4.000 trích dẫn giả

Tháng 5/2026, một nghiên cứu được công bố trên tạp chí y khoa hàng đầu The Lancet gây chấn động giới học thuật khi phát hiện 4.046 trích dẫn không có thật xuất hiện trong 2.810 bài báo y sinh học.

Các tác giả đã rà soát khoảng 2,5 triệu công trình khoa học trong cơ sở dữ liệu PubMed Central và nhận thấy số lượng trích dẫn giả tăng vọt kể từ năm 2023 - thời điểm các công cụ AI tạo sinh bắt đầu được sử dụng rộng rãi trong nghiên cứu và viết học thuật.

Tuy nhiên, điều đáng lo ngại là con số 4.046 có thể chỉ phản ánh một phần rất nhỏ của vấn đề.

Một nghiên cứu khác do các nhà khoa học thuộc Đại học Cornell và nhiều tổ chức nghiên cứu quốc tế thực hiện đã phân tích hơn 111 triệu tài liệu tham khảo trong khoảng 2,5 triệu bài báo thuộc các kho dữ liệu học thuật lớn như PubMed Central, arXiv, bioRxiv và SSRN. Kết quả cho thấy riêng trong năm 2025 có thể đã xuất hiện tới gần 147.000 trích dẫn mang dấu hiệu được AI "bịa" ra.

Nói cách khác, những gì giới khoa học đang phát hiện có thể không phải là một vài sai sót cá biệt, mà là dấu hiệu của một hiện tượng mang tính hệ thống.

Đáng chú ý hơn, nhiều trích dẫn giả đã không bị loại bỏ trong quá trình phản biện mà xuất hiện trong các bài báo được xuất bản chính thức. Điều này đồng nghĩa những thông tin không tồn tại đang được đưa vào kho tri thức khoa học, nơi chúng có thể tiếp tục được người khác đọc, trích dẫn và sử dụng trong các nghiên cứu tiếp theo.

Phân bố các bài báo có ảo giác theo cơ sở đào tạo của tác giả. Cách GPTZero tính toán như sau: Một nghiên cứu có 2 bài báo có ảo giác với bất kỳ tác giả nào đến từ Đại học A hoặc Đại học B sẽ được tính là 2 bài báo có ảo giác và 1 bài báo có ảo giác từ cả hai trường đại học, bất kể số lượng tác giả đến từ trường nào.

Phân bố các bài báo có ảo giác theo cơ sở đào tạo của tác giả. Cách GPTZero tính toán như sau: Một nghiên cứu có 2 bài báo có ảo giác với bất kỳ tác giả nào đến từ Đại học A hoặc Đại học B sẽ được tính là 2 bài báo có ảo giác và 1 bài báo có ảo giác từ cả hai trường đại học, bất kể số lượng tác giả đến từ trường nào.

Vì sao AI lại "bịa" ra thông tin?

Câu trả lời nằm ở cách các mô hình ngôn ngữ lớn hoạt động.

Nhiều người nhầm tưởng AI giống như một công cụ tìm kiếm có khả năng tra cứu dữ liệu và trả về câu trả lời chính xác. Thực tế, các mô hình như ChatGPT, Gemini hay Claude được thiết kế để dự đoán từ hoặc cụm từ có xác suất xuất hiện cao nhất trong một ngữ cảnh nhất định.

Nói cách khác, AI không thực sự "biết" điều gì đúng hay sai. Nó chỉ tạo ra câu trả lời nghe có vẻ hợp lý nhất.

Khi được yêu cầu cung cấp tài liệu tham khảo, mô hình có thể kết hợp tên tác giả có thật, chủ đề nghiên cứu có thật và tên tạp chí có thật để tạo nên một bài báo hoàn toàn không tồn tại. Hiện tượng này được gọi là "hallucination" hay "ảo giác AI".

Vấn đề nằm ở chỗ các mô hình ngôn ngữ ngày càng giỏi tạo ra những câu trả lời trông rất thuyết phục. Một trích dẫn giả ngày nay không còn dễ dàng bị phát hiện bằng mắt thường như vài năm trước. Thậm chí ngay cả những nhà nghiên cứu có kinh nghiệm cũng có thể bỏ sót nếu không kiểm tra thủ công từng nguồn tham khảo.

Ví dụ các bài báo đã được phát hiện bao gồm các trích dẫn ảo (Nguồn) và văn bản do AI tạo ra (AI). Dấu "* " bên cạnh bản quét cho biết bài báo có khả năng là sự kết hợp giữa văn bản do AI và con người tạo ra, trong khi dấu " **" cho biết bài báo có khả năng hoàn toàn do AI tạo ra.

Ví dụ các bài báo đã được phát hiện bao gồm các trích dẫn ảo (Nguồn) và văn bản do AI tạo ra (AI). Dấu "* " bên cạnh bản quét cho biết bài báo có khả năng là sự kết hợp giữa văn bản do AI và con người tạo ra, trong khi dấu " **" cho biết bài báo có khả năng hoàn toàn do AI tạo ra.

"Ảo giác AI" - Khi ngày càng nhiều người không còn kiểm tra những gì AI viết ra

Nhiều ý kiến cho rằng lỗi thuộc về AI. Nhưng cách nhìn này có thể chưa phản ánh đầy đủ bản chất vấn đề.

Một mô hình ngôn ngữ không phải nhà khoa học. Nó không có trách nhiệm học thuật, không chịu trách nhiệm pháp lý và cũng không phải tác giả của bài báo. Trách nhiệm cuối cùng vẫn thuộc về con người sử dụng công cụ.

Điều đáng suy nghĩ là vì sao hàng nghìn trích dẫn giả có thể vượt qua các lớp kiểm tra của tác giả, phản biện và biên tập viên.

Trong nhiều năm qua, hệ thống xuất bản khoa học toàn cầu đã vận hành dưới áp lực ngày càng lớn của văn hóa "publish or perish" - công bố hoặc bị đào thải. Các nhà nghiên cứu phải liên tục xuất bản bài báo để cạnh tranh nguồn tài trợ, vị trí học thuật và cơ hội thăng tiến.

Trong môi trường đó, AI xuất hiện như một công cụ giúp tiết kiệm thời gian. Nhưng khi tốc độ trở thành ưu tiên, nguy cơ đánh đổi chất lượng và tính xác thực cũng tăng theo.

Nói cách khác, AI không tạo ra cuộc khủng hoảng này. AI chỉ đang phơi bày những điểm yếu vốn đã tồn tại trong hệ thống sản xuất tri thức hiện đại.

Tri thức bắt đầu "nhiễm" dữ liệu không có thật

Mối lo lớn nhất không phải là một bài báo chứa vài trích dẫn sai.

Điều đáng sợ hơn là khả năng hình thành hiệu ứng dây chuyền.

Một trích dẫn giả lọt vào bài báo A có thể được tác giả B tiếp tục sử dụng vì tin rằng nguồn đó đã được kiểm chứng. Sau đó, bài báo B lại trở thành tài liệu tham khảo cho bài báo C. Theo thời gian, những thông tin không tồn tại có thể dần được hợp thức hóa thông qua chính cơ chế trích dẫn học thuật.

Đây là kịch bản mà nhiều chuyên gia gọi là "ô nhiễm tri thức" (knowledge contamination) - khi dữ liệu sai len lỏi vào hệ sinh thái nghiên cứu và trở nên khó phân biệt với tri thức thực.

Nguy cơ này đặc biệt đáng lo trong bối cảnh các mô hình AI thế hệ mới đang được huấn luyện bằng chính kho dữ liệu trực tuyến. Nếu dữ liệu đầu vào chứa ngày càng nhiều thông tin sai lệch, các hệ thống AI tương lai có thể tiếp tục học từ những sai lệch đó và khuếch đại chúng trên quy mô lớn hơn.

AI có thể viết nhanh hơn, nhưng không thể thay thế tư duy phản biện

Lịch sử khoa học từng chứng kiến nhiều cuộc khủng hoảng về đạo văn, gian lận dữ liệu và nghiên cứu ngụy tạo. Nhưng làn sóng ảo giác AI có thể nguy hiểm hơn ở một điểm: nó không phá hủy tri thức bằng những cú sốc lớn, mà âm thầm làm nhiễu hệ thống bằng hàng nghìn sai lệch nhỏ rất khó phát hiện.

Một trích dẫn giả hôm nay có thể trở thành nguồn tham khảo của hàng chục bài báo ngày mai. Một nghiên cứu không tồn tại có thể được AI khác tiếp tục học và lặp lại trong tương lai. Khi đó, khoa học không còn đối mặt với nguy cơ thiếu thông tin, mà đối mặt với nguy cơ bị nhấn chìm trong một biển thông tin nghe có vẻ đúng nhưng chưa bao giờ tồn tại.

Điều đáng lo ngại nhất là công nghệ đang tiến nhanh hơn nhiều so với khả năng kiểm chứng của con người. Và nếu giới học thuật không xây dựng được những hàng rào mới cho kỷ nguyên AI, cuộc khủng hoảng tiếp theo có thể không phải là AI bịa ra tri thức, mà là con người dần mất khả năng nhận ra đâu mới là tri thức thật.

Đỗ Tho

Nguồn Công dân & Khuyến học: https://congdankhuyenhoc.vn/ao-giac-ai-tao-ra-hon-4000-trich-dan-gia-tri-thuc-nhan-loai-dang-bi-dau-doc-179260605145704512.htm