Ảo giác AI tạo ra hơn 4.000 trích dẫn giả, tri thức nhân loại đang bị 'đầu độc'?

Điều gì xảy ra khi những nghiên cứu chưa từng tồn tại bắt đầu được trích dẫn trong các bài báo khoa học? Các phát hiện mới cho thấy hiện tượng 'ảo giác AI' đang len lỏi vào quy trình sản xuất tri thức toàn cầu. Cuộc khủng hoảng không còn nằm ở công nghệ, mà ở niềm tin dành cho chính hệ thống sản xuất tri thức hiện đại.

2 giờ trước Gốc

Hơn 4.000 trích dẫn giả đã được phát hiện trong các bài báo khoa học. Nhưng đó có thể chỉ là phần nổi của tảng băng chìm. Những nghiên cứu mới nhất cho thấy hiện tượng "ảo giác AI" đang len lỏi vào hệ thống xuất bản học thuật với quy mô lớn chưa từng có, đặt ra câu hỏi nghiêm trọng về độ tin cậy của tri thức trong kỷ nguyên trí tuệ nhân tạo.

Từ trái sang: Edward Tian, đồng sáng lập kiêm CEO của GPTZero, cùng với CTO kiêm đồng sáng lập Alex Cui. Công ty khởi nghiệp GPTZero của Canada đã phân tích hơn 4.000 bài nghiên cứu được chấp nhận và trình bày tại NeurIPS (Hệ thống xử lý thông tin thần kinh) 2025. Báo cáo này cho biết một số trường hợp, mô hình AI đã kết hợp hoặc diễn giải lại các yếu tố từ nhiều bài báo thực tế, bao gồm cả các tiêu đề và danh sách tác giả nghe có vẻ đáng tin cậy, công ty cho biết. Những trường hợp khác dường như hoàn toàn được bịa đặt: Một tác giả không tồn tại, một tiêu đề bài báo giả mạo, một tạp chí hoặc hội nghị giả, hoặc một URL dẫn đến không có gì.

"Ảo giác AI" không chỉ là 4.000 trích dẫn giả

Tháng 5/2026, một nghiên cứu được công bố trên tạp chí y khoa hàng đầu The Lancet gây chấn động giới học thuật khi phát hiện 4.046 trích dẫn không có thật xuất hiện trong 2.810 bài báo y sinh học.

Các tác giả đã rà soát khoảng 2,5 triệu công trình khoa học trong cơ sở dữ liệu PubMed Central và nhận thấy số lượng trích dẫn giả tăng vọt kể từ năm 2023 - thời điểm các công cụ AI tạo sinh bắt đầu được sử dụng rộng rãi trong nghiên cứu và viết học thuật.

Tuy nhiên, điều đáng lo ngại là con số 4.046 có thể chỉ phản ánh một phần rất nhỏ của vấn đề.

Một nghiên cứu khác do các nhà khoa học thuộc Đại học Cornell và nhiều tổ chức nghiên cứu quốc tế thực hiện đã phân tích hơn 111 triệu tài liệu tham khảo trong khoảng 2,5 triệu bài báo thuộc các kho dữ liệu học thuật lớn như PubMed Central, arXiv, bioRxiv và SSRN. Kết quả cho thấy riêng trong năm 2025 có thể đã xuất hiện tới gần 147.000 trích dẫn mang dấu hiệu được AI "bịa" ra.

Nói cách khác, những gì giới khoa học đang phát hiện có thể không phải là một vài sai sót cá biệt, mà là dấu hiệu của một hiện tượng mang tính hệ thống.

Đáng chú ý hơn, nhiều trích dẫn giả đã không bị loại bỏ trong quá trình phản biện mà xuất hiện trong các bài báo được xuất bản chính thức. Điều này đồng nghĩa những thông tin không tồn tại đang được đưa vào kho tri thức khoa học, nơi chúng có thể tiếp tục được người khác đọc, trích dẫn và sử dụng trong các nghiên cứu tiếp theo.

Phân bố các bài báo có ảo giác theo cơ sở đào tạo của tác giả. Cách GPTZero tính toán như sau: Một nghiên cứu có 2 bài báo có ảo giác với bất kỳ tác giả nào đến từ Đại học A hoặc Đại học B sẽ được tính là 2 bài báo có ảo giác và 1 bài báo có ảo giác từ cả hai trường đại học, bất kể số lượng tác giả đến từ trường nào.

Vì sao AI lại "bịa" ra thông tin?

Câu trả lời nằm ở cách các mô hình ngôn ngữ lớn hoạt động.

Nhiều người nhầm tưởng AI giống như một công cụ tìm kiếm có khả năng tra cứu dữ liệu và trả về câu trả lời chính xác. Thực tế, các mô hình như ChatGPT, Gemini hay Claude được thiết kế để dự đoán từ hoặc cụm từ có xác suất xuất hiện cao nhất trong một ngữ cảnh nhất định.

Nói cách khác, AI không thực sự "biết" điều gì đúng hay sai. Nó chỉ tạo ra câu trả lời nghe có vẻ hợp lý nhất.

Khi được yêu cầu cung cấp tài liệu tham khảo, mô hình có thể kết hợp tên tác giả có thật, chủ đề nghiên cứu có thật và tên tạp chí có thật để tạo nên một bài báo hoàn toàn không tồn tại. Hiện tượng này được gọi là "hallucination" hay "ảo giác AI".

Vấn đề nằm ở chỗ các mô hình ngôn ngữ ngày càng giỏi tạo ra những câu trả lời trông rất thuyết phục. Một trích dẫn giả ngày nay không còn dễ dàng bị phát hiện bằng mắt thường như vài năm trước. Thậm chí ngay cả những nhà nghiên cứu có kinh nghiệm cũng có thể bỏ sót nếu không kiểm tra thủ công từng nguồn tham khảo.

Ví dụ các bài báo đã được phát hiện bao gồm các trích dẫn ảo (Nguồn) và văn bản do AI tạo ra (AI). Dấu "* " bên cạnh bản quét cho biết bài báo có khả năng là sự kết hợp giữa văn bản do AI và con người tạo ra, trong khi dấu " **" cho biết bài báo có khả năng hoàn toàn do AI tạo ra.

"Ảo giác AI" - Khi ngày càng nhiều người không còn kiểm tra những gì AI viết ra

Nhiều ý kiến cho rằng lỗi thuộc về AI. Nhưng cách nhìn này có thể chưa phản ánh đầy đủ bản chất vấn đề.

Một mô hình ngôn ngữ không phải nhà khoa học. Nó không có trách nhiệm học thuật, không chịu trách nhiệm pháp lý và cũng không phải tác giả của bài báo. Trách nhiệm cuối cùng vẫn thuộc về con người sử dụng công cụ.

Điều đáng suy nghĩ là vì sao hàng nghìn trích dẫn giả có thể vượt qua các lớp kiểm tra của tác giả, phản biện và biên tập viên.

Trong nhiều năm qua, hệ thống xuất bản khoa học toàn cầu đã vận hành dưới áp lực ngày càng lớn của văn hóa "publish or perish" - công bố hoặc bị đào thải. Các nhà nghiên cứu phải liên tục xuất bản bài báo để cạnh tranh nguồn tài trợ, vị trí học thuật và cơ hội thăng tiến.

Trong môi trường đó, AI xuất hiện như một công cụ giúp tiết kiệm thời gian. Nhưng khi tốc độ trở thành ưu tiên, nguy cơ đánh đổi chất lượng và tính xác thực cũng tăng theo.

Nói cách khác, AI không tạo ra cuộc khủng hoảng này. AI chỉ đang phơi bày những điểm yếu vốn đã tồn tại trong hệ thống sản xuất tri thức hiện đại.

Tri thức bắt đầu "nhiễm" dữ liệu không có thật

Mối lo lớn nhất không phải là một bài báo chứa vài trích dẫn sai.

Điều đáng sợ hơn là khả năng hình thành hiệu ứng dây chuyền.

Một trích dẫn giả lọt vào bài báo A có thể được tác giả B tiếp tục sử dụng vì tin rằng nguồn đó đã được kiểm chứng. Sau đó, bài báo B lại trở thành tài liệu tham khảo cho bài báo C. Theo thời gian, những thông tin không tồn tại có thể dần được hợp thức hóa thông qua chính cơ chế trích dẫn học thuật.

Đây là kịch bản mà nhiều chuyên gia gọi là "ô nhiễm tri thức" (knowledge contamination) - khi dữ liệu sai len lỏi vào hệ sinh thái nghiên cứu và trở nên khó phân biệt với tri thức thực.

Nguy cơ này đặc biệt đáng lo trong bối cảnh các mô hình AI thế hệ mới đang được huấn luyện bằng chính kho dữ liệu trực tuyến. Nếu dữ liệu đầu vào chứa ngày càng nhiều thông tin sai lệch, các hệ thống AI tương lai có thể tiếp tục học từ những sai lệch đó và khuếch đại chúng trên quy mô lớn hơn.

AI có thể viết nhanh hơn, nhưng không thể thay thế tư duy phản biện

Lịch sử khoa học từng chứng kiến nhiều cuộc khủng hoảng về đạo văn, gian lận dữ liệu và nghiên cứu ngụy tạo. Nhưng làn sóng ảo giác AI có thể nguy hiểm hơn ở một điểm: nó không phá hủy tri thức bằng những cú sốc lớn, mà âm thầm làm nhiễu hệ thống bằng hàng nghìn sai lệch nhỏ rất khó phát hiện.

Một trích dẫn giả hôm nay có thể trở thành nguồn tham khảo của hàng chục bài báo ngày mai. Một nghiên cứu không tồn tại có thể được AI khác tiếp tục học và lặp lại trong tương lai. Khi đó, khoa học không còn đối mặt với nguy cơ thiếu thông tin, mà đối mặt với nguy cơ bị nhấn chìm trong một biển thông tin nghe có vẻ đúng nhưng chưa bao giờ tồn tại.

Điều đáng lo ngại nhất là công nghệ đang tiến nhanh hơn nhiều so với khả năng kiểm chứng của con người. Và nếu giới học thuật không xây dựng được những hàng rào mới cho kỷ nguyên AI, cuộc khủng hoảng tiếp theo có thể không phải là AI bịa ra tri thức, mà là con người dần mất khả năng nhận ra đâu mới là tri thức thật.

Đỗ Tho

Nguồn Công dân & Khuyến học: https://congdankhuyenhoc.vn/ao-giac-ai-tao-ra-hon-4000-trich-dan-gia-tri-thuc-nhan-loai-dang-bi-dau-doc-179260605145704512.htm

Đưa Giải thưởng Tạ Quang Bửu thành giải thưởng khoa học uy tín hàng đầu Việt Nam

1 giờ

AI mở đường cho y học cổ truyền bước vào kỷ nguyên số

4 giờ

Thúc đẩy hợp tác chuyên sâu giữa Bệnh viện Trung ương Huế và Bệnh viện Đa khoa Taichung

2 giờ

Tin nóng

Robot AI tự hành thay con người thực hiện nhiệm vụ nguy hiểm

1 giờ

Công ty công nghệ quốc phòng Shifters có hoạt động nghiên cứu và phát triển tại Israel đang phát triển thế hệ robot mặt đất tự hành ứng dụng trí tuệ nhân tạo (AI), với mục tiêu đưa robot trở thành lực lượng tiên phong tại các khu vực nguy hiểm trước khi con người tiếp cận.

[VIDEO] Siêu đô thị TP HCM đối mặt lún đất và biến đổi khí hậu

5 giờ

TP HCM đang lún 8 mm/năm, nước biển dâng gần 1m cuối thế kỷ, với đề xuất thích ứng của kiến trúc sư Ngô Viết Nam Sơn và ĐHQG TP HCM.

Hội nghị Tim mạch châu Âu 2026 công bố kết quả nghiên cứu mới

2 giờ

Kết quả nghiên cứu BIOADAPTOR RCT năm thứ 4 công bố tại EuroPCR 2026 cho thấy, DynamX Bioadaptor vượt trội hơn stent phủ thuốc hiện đại, giúp giảm nguy cơ thất bại sau can thiệp tim mạch.

Nhân sự an ninh mạng thiếu kỹ năng sử dụng AI có thể khiến tổ chức gặp rủi ro nhiều hơn

18 phút

Trong khi thực tế môi trường an ninh mạng hiện tại đang gặp rất nhiều thách thức, khi tội phạm mạng sử dụng trí tuệ nhân tạo (AI) như một vũ khí và các chuyên gia CNTT thiếu khả năng sử dụng AI để phòng thủ.

Indonesia sẽ bắt buộc sử dụng xăng E5 từ tháng 7-2026

Chuyên trang An Ninh Thủ Đô - Báo Công an nhân dân

3 giờ

Indonesia sẽ thực hiện việc bắt buộc pha trộn 5% bioethanol vào xăng, được gọi là E5, bắt đầu từ nửa cuối năm 2026 như một phần nỗ lực mở rộng sử dụng năng lượng tái tạo và tăng cường an ninh năng lượng.

Hà Nội: Khởi công Nhà máy xử lý rác, phát điện vốn đầu tư 3.000 tỷ đồng

2 giờ

Sáng 5-6, Tập đoàn AMACCAO khởi công Nhà máy điện rác AMACCAO - Thành Công nằm trên địa bàn phường Tùng Thiện, Hà Nội.

Tin mới

Samsung hé lộ chiến lược mới qua hình ảnh ốp lưng Galaxy Z Fold8 và Z Flip8

4 phút

Rò rỉ từ nhà sản xuất phụ kiện Thinborne tiết lộ thiết kế màn hình rộng trên Galaxy Z Fold8 và phiên bản Ultra cao cấp với những thay đổi quan trọng về cụm camera.

Thanh thiếu nhi hành động hướng tới ứng phó với biến đổi khí hậu

6 phút

Hưởng ứng Tháng Hành động vì trẻ em năm 2026 và Ngày Môi trường thế giới, Hội đồng Đội Trung ương phối hợp cùng Plan International Việt Nam tổ chức chương trình 'Thanh thiếu nhi ứng phó với biến đổi khí hậu'.

Thiết kế Samsung Galaxy Z Flip8 và Z Fold8 Ultra lộ diện qua hình ảnh ốp lưng

13 phút

Hình ảnh rò rỉ ốp lưng từ Thinborne cho thấy Samsung có thể thay đổi tỷ lệ màn hình trên Galaxy Z Fold8 và nâng cấp cụm camera cho phiên bản Ultra cao cấp.

TP.HCM triển khai đề án tái chế chất thải rắn hướng tới phát triển kinh tế xanh, đô thị bền vững

15 phút

Ngày 5/6, Hiệp hội Xây dựng và Vật liệu xây dựng TP.HCM (SACA) tổ chức Hội thảo 'Triển khai Đề án tái chế chất thải rắn xây dựng TP. Hồ Chí Minh giai đoạn 2026 – 2030, định hướng đến năm 2045'.

AI thúc đẩy chuyển đổi giáo dục

Báo Thể Thao & Văn Hóa - Thông tấn xã Việt Nam

25 phút

Theo phóng viên TTXVN tại Trung Quốc, ngày 5/6 tại Thâm Quyến, đã diễn ra Hội nghị thượng đỉnh về trí tuệ nhân tạo (AI) thúc đẩy chuyển đổi giáo dục, với sự tham dự của 300 đại diện chính phủ các nước, ngành công nghiệp, các trường đại học, giới học thuật, các viện nghiên cứu và các tổ chức quốc tế trên toàn thế giới, nhằm cùng nhau thảo luận về các lộ trình triển khai thực tiễn mô hình 'AI + Giáo dục'.

Ảo giác AI tạo ra hơn 4.000 trích dẫn giả, tri thức nhân loại đang bị 'đầu độc'?

U19 Việt Nam thắng U19 Myanmar 5-0

Cứu 6 người kẹt ở tầng hai căn nhà đang cháy ở TPHCM

[Clip] Thót tim cảnh cá sấu 'dạo chơi' trên đường giữa trung tâm TP.Đồng Nai

Đàn 'cá lóc bay' độc đáo hút khách ở miền Tây

Phát hiện ma túy cùng nhiều dụng cụ sử dụng ma túy trong nhà dân