Ảo giác trí tuệ nhân tạo đe dọa giới khoa học
Trí tuệ nhân tạo đang làm xói mòn niềm tin vào kho tàng tri thức học thuật khi một nghiên cứu mới đây phát hiện hàng chục nghìn trích dẫn sai lệch trong các bài báo nghiên cứu.
Tình trạng lạm dụng trí tuệ nhân tạo buộc các nhà quản lý cơ sở dữ liệu khoa học phải áp dụng hàng loạt biện pháp kiểm duyệt khắt khe hơn để bảo vệ tính toàn vẹn của nền khoa học toàn cầu.

Ảo giác của trí tuệ nhân tạo có thể tạo ra tài liệu ngụy khoa học.
Nguồn tài liệu bị trí tuệ nhân tạo thao túng và thiếu kiểm chứng
Ngay cả những phiên bản mạnh mẽ nhất của các mô hình ngôn ngữ lớn thường có xu hướng tạo ra những câu trả lời sai lệch hoặc gây hiểu lầm. Những hiện tượng được gọi là ảo giác này có thể gây ra tác hại to lớn đối với nền khoa học. Một nghiên cứu mới đã phát hiện ra gần 150 nghìn trích dẫn bị làm giả trong các bài báo nghiên cứu.
Các chuyên gia từ Đại học Cornell và Đại học California đã xem xét tổng cộng 111 triệu tài liệu tham khảo từ 2,5 triệu bài báo khoa học. Mặc dù hầu hết các bài báo học thuật không được công bố rộng rãi cho công chúng, những phát hiện của chúng vẫn có thể mang lại hệ quả trong thế giới thực. Từ công nghệ, y khoa cho đến môi trường làm việc, những khám phá khoa học mới đóng góp trực tiếp vào quá trình thay đổi cách thức vận hành của xã hội.
Để khám phá ảnh hưởng của trí tuệ nhân tạo đối với tài liệu nghiên cứu, nhóm học giả đã tìm kiếm những trích dẫn không thuộc về bất kỳ ấn phẩm nào từng được biết đến. Dù một số trường hợp bắt nguồn từ lỗi chính tả, các nhà nghiên cứu cũng bắt gặp vô số ảo giác do trí tuệ nhân tạo tạo ra.
Tổng cộng có 146.900 tài liệu tham khảo không chính xác đã được tìm thấy. Đáng lo ngại hơn, các trích dẫn sai sót này nằm rải rác trên rất nhiều bài viết khác nhau. Phát hiện này cho thấy rất nhiều tác giả đang áp dụng các tài liệu tham khảo do máy móc sinh ra một cách vô thức mà hoàn toàn không thực hiện bước kiểm chứng. Các trích dẫn bị làm giả đã xuất hiện trên các cơ sở dữ liệu lớn như arXiv, bioRXiv, SSRN và PubMed Central. Đây là những kho lưu trữ khoa học uy tín, nơi các nhà nghiên cứu thường xuyên tải lên công trình của họ trước khi xuất bản chính thức trên các tạp chí học thuật nhằm giúp cộng đồng khoa học toàn cầu có thể tiếp cận sớm.
Hậu quả đối với giới học thuật và các biện pháp trừng phạt
Ông Steinn Sigurdsson, giám đốc khoa học của hệ thống arXiv, từng chia sẻ với mạng lưới truyền thông CNet vào tháng 2 rằng kho tàng dữ liệu khoa học đang bị pha loãng. Phần lớn những gì trí tuệ nhân tạo sinh ra đều sai sự thật hoặc hoàn toàn vô nghĩa. Việc tạo ra quá nhiều rác dữ liệu gây khó khăn cho việc tìm hiểu những bản chất khoa học thực sự và có thể dẫn dắt người đọc đi sai hướng.
Usha Haley, một giáo sư quản lý tại Đại học Bang Wichita, cũng bày tỏ những lo ngại tương tự. Giáo sư này khẳng định các trích dẫn giả mạo hoặc do thuật toán tạo ra đang làm suy giảm niềm tin vào tài liệu khoa học, vốn là nền tảng cho quá trình bình duyệt và xây dựng tri thức nhân loại. Sự hoài nghi này giờ đây đang xuất phát từ chính bên trong cộng đồng học thuật và từ những nhà nghiên cứu trẻ tuổi.
Trước tình hình đó, nền tảng arXiv đã bắt đầu thực hiện những bước đi đầu tiên nhằm chấn chỉnh. Các tác giả chính khi nộp bài hiện phải cung cấp thư giới thiệu từ những học giả đã có tên tuổi. Kho lưu trữ này mới đây cũng công bố thêm các quy định khắt khe hơn đối với nội dung tự động hóa.
Ông Thomas Dietterich, người đứng đầu bộ phận khoa học máy tính của ArXiv, đã viết trên mạng xã hội X rằng nếu một bài nộp chứa bằng chứng rõ ràng về việc các tác giả chưa xác minh kết quả do mô hình ngôn ngữ lớn tạo ra, điều đó đồng nghĩa với việc nền tảng không thể tin tưởng vào công trình này.
Động thái này không phải là một lệnh cấm chung đối với phần mềm thông minh. Thay vào đó, các nền tảng yêu cầu tác giả phải chịu hoàn toàn trách nhiệm đối với công trình của mình, bất kể nội dung được hoàn thiện bằng công cụ nào. Nếu phát hiện ra vi phạm, tác giả sẽ phải đối mặt với lệnh cấm gửi bài lên ArXiv trong vòng một năm. Sau thời gian kỷ luật, họ phải tuân thủ yêu cầu gửi bài lên các nền tảng bình duyệt uy tín khác và được chấp nhận trước khi có thể quay lại đăng bài trên ArXiv.
Sự xuất hiện của các trích dẫn giả mạo vốn không phải là một hiện tượng mới. Ngay cả trước khi các siêu máy tính ra đời, vẫn có những học giả trích dẫn sai nguồn, đôi khi do vô tình hoặc có chủ ý. Để điều tra xu hướng này, các chuyên gia đã so sánh tần suất xuất hiện của các lỗi này trước và sau năm 2023.
Kết quả cho thấy rất rõ ràng sự gia tăng mạnh mẽ của các tài liệu tham khảo không tồn tại sau khi các công cụ ngôn ngữ lớn được áp dụng rộng rãi trong giới nghiên cứu. Điều này đòi hỏi một sự giám sát nghiêm ngặt hơn nữa để bảo vệ sự trong sạch của nền khoa học hiện đại.
Nguồn Một Thế Giới: https://1thegioi.vn/ao-giac-tri-tue-nhan-tao-de-doa-gioi-khoa-hoc-252097.html











