Các mô hình AI cũng bị 'thối não'
Một nghiên cứu của các nhà nghiên cứu tại Đại học Texas A&M, Đại học Texas tại Austin và Đại học Purdue phát hiện ra rằng các mô hình AI bị ảnh hưởng bởi quá trình đào tạo dựa trên nội dung xã hội chất lượng thấp.

Các mô hình AI bị ảnh hưởng bởi quá trình đào tạo dựa trên nội dung xã hội chất lượng thấp. Ảnh: Fortune.
Một nghiên cứu mới từ các đại học hàng đầu như University of Texas at Austin, Texas A&M và Purdue University đã tiết lộ rằng các mô hình ngôn ngữ lớn (LLM) được đào tạo bằng những nội dung mạng xã hội chất lượng kém cũng gặp phải một dạng "thối não" (brain rot). Hiện tượng này tương tự như sự suy giảm nhận thức mà bất kỳ ai dành quá nhiều thời gian trên X hoặc TikTok đều có thể cảm thấy.
"Chúng ta đang sống trong thời đại mà thông tin được thiết kế để thu hút lượt nhấp chuột, chứ không phải truyền tải sự thật hay chiều sâu", Junyuan Hong, trợ lý giáo sư tại National University of Singapore và là thành viên nhóm nghiên cứu, cho biết. "Chúng tôi tự hỏi: Điều gì sẽ xảy ra khi các hệ thống AI được đào tạo trên chính những nội dung đó?", ông Hong nói thêm.
Hong và các đồng nghiệp đã cung cấp các loại văn bản khác nhau cho hai mô hình ngôn ngữ lớn nguồn mở là Meta’s Llama và Alibaba’s Qwen trong giai đoạn tiền đào tạo. Họ đã kiểm tra tác động khi các mô hình này được cung cấp hỗn hợp các bài đăng mạng xã hội "tạo tương tác" cao (được chia sẻ rộng rãi) và các bài đăng chứa văn bản giật gân, cường điệu như "wow," "nhìn kìa," hay "chỉ hôm nay".
Suy giảm nhận thức, đạo đức và trí nhớ
Kết quả cho thấy, các mô hình được nuôi bằng nội dung rác đã trải qua sự suy giảm nhận thức tương tự như "thối não" của AI. Các dấu hiệu bao gồm giảm khả năng suy luận và suy thoái trí nhớ. Thậm chí, các mô hình này còn trở nên kém tuân thủ đạo đức hơn.
Kết quả này củng cố nghiên cứu trên con người, vốn cho thấy nội dung trực tuyến chất lượng thấp có tác động tiêu cực đến khả năng nhận thức của người dùng. Sự phổ biến của hiện tượng này đã khiến "brain rot" được từ điển Oxford chọn là từ của năm 2024.
Ông Hong nhấn mạnh kết quả này là một cảnh báo quan trọng đối với ngành công nghiệp AI, vì các nhà phát triển mô hình có thể lầm tưởng rằng mạng xã hội là một nguồn dữ liệu huấn luyện tốt. Ông nói: "Việc đào tạo trên nội dung lan truyền hoặc thu hút sự chú ý có vẻ là cách để mở rộng quy mô dữ liệu. Nhưng nó có thể âm thầm làm xói mòn khả năng suy luận, đạo đức và sự chú ý đến ngữ cảnh dài".
Vòng lặp ô nhiễm dữ liệu
Thực tế đáng lo ngại là AI đang ngày càng tạo ra nhiều nội dung trên mạng xã hội và phần lớn nội dung đó được tối ưu hóa cho tương tác. Điều này tạo ra một vòng lặp độc hại: nội dung rác do AI tạo ra lan rộng, làm ô nhiễm dữ liệu mà các mô hình tương lai sẽ học hỏi. Các nhà nghiên cứu cũng phát hiện ra rằng một khi hiện tượng "thối não" đã xảy ra, việc đào tạo lại bằng dữ liệu sạch sẽ không thể hoàn toàn đảo ngược được sự suy giảm nhận thức.
Những phát hiện này cũng gợi ý rằng các hệ thống AI được xây dựng xoay quanh các nền tảng xã hội, chẳng hạn như Grok, có thể gặp vấn đề về kiểm soát chất lượng nếu các bài đăng do người dùng tạo được sử dụng để đào tạo mà không chú trọng đến tính toàn vẹn của nội dung.
Ông Hong kết luận: "Khi ngày càng nhiều 'thứ rác rưởi' do AI tạo ra lan truyền trên mạng xã hội, nó làm ô nhiễm chính dữ liệu mà các mô hình tương lai sẽ học hỏi. Phát hiện của chúng tôi cho thấy một khi dạng 'thối não' này đã hình thành, việc đào tạo sạch sau đó không thể hoàn toàn khắc phục được".
Nguồn VietTimes: https://viettimes.vn/cac-mo-hinh-ai-cung-bi-thoi-nao-post190827.html












