AI của Meta nhớ được nguyên văn truyện 'Harry Potter'
Một thử nghiệm mới phát hiện ra ít nhất một mô hình AI của Meta ghi nhớ gần như toàn bộ một số cuốn sách, bao gồm 'Harry Potter và Hòn đá phù thủy', theo New Scientist.

Ảnh: New Scientist
Đã có nhiều thông tin rò rỉ về việc các mô hình ngôn ngữ lớn (LLM) phổ biến và nhiều chương trình AI tạo sinh đã sử dụng bộ dữ liệu Books3, chứa gần 200.000 cuốn sách có bản quyền. Các nhà phát triển AI lập luận rằng họ không vi phạm luật vì LLM sẽ trả ra kết quả được kết hợp, tổng hợp từ nhiều nguồn và không sử dụng nguyên gốc văn bản.
Dữ liệu thực tế thay đổi các nhà nghiên cứu
Tuy nhiên, các nhà nghiên cứu gần đây phát hiện ra một trong những mô hình LLM của Meta đã ghi nhớ gần như toàn bộ một số cuốn sách nhất định. Nếu bằng chứng này được đưa vào trong vụ kiện nhằm vào Meta, các nhà nghiên cứu ước tính Meta phải chịu trách nhiệm bồi thường ít nhất 1 tỷ USD.
Nhà nghiên cứu Mark Lemley tại Đại học Stanford ở California cho biết: “Các mô hình AI không chỉ là 'cỗ máy đạo văn', như một số người đã cáo buộc, mà chúng còn làm được nhiều điều thế”.
Lemley trước đây đứng về phía Meta trong vấn đề bản quyền nhưng kết quả nghiên cứu mới có thể khiến ông nghĩ khác.
Trước đây, Lemley từng ủng hộ công ty này trong một vụ kiện, được gọi là Kadrey kiện Meta. Richard Kadrey là tác giả người Mỹ nổi tiếng với các tiểu thuyết thể loại khoa học viễn tưởng, đặc biệt là Sandman Slim. Kadrey tuyên bố rằng "hành vi phi pháp" của Meta trong việc sử dụng sách lậu để đào tạo mô hình ngôn ngữ lớn (LLM) của công ty này đã xâm phạm tác phẩm của họ. Hiện vụ kiện vẫn được thụ lý tại quận phía Bắc của California.
Tuy nhiên, vào tháng 1, Lemley tuyên bố chấm dứt quan hệ kinh doanh với Meta, mặc dù ông vẫn tin rằng công ty này nên thắng kiện.
Cách phát hiện AI ghi nhớ văn bản
Trong nghiên cứu mới này, Lemley cùng đồng nghiệp đã thử nghiệm khả năng ghi nhớ sách của AI bằng cách chia các đoạn trích sách thành hai phần, phần tiền tố và phần hậu tố, sau đó kiểm tra xem liệu phần yêu cầu sử dụng tiền tố có được AI phản hồi bằng hậu tố hay không.
Ví dụ, họ chia một đoạn trích từ Đại gia Gatsby của F. Scott Fitzgerald thành tiền tố “Họ là những kẻ vô tâm, Tom với Daisy - họ đập nát mọi thứ, cả vô tri lẫn hữu tri, rồi rút lui” và hậu tố “vào tiền bạc hoặc niềm vô tâm mênh mông của họ hoặc bất kỳ những gì vẫn ràng buộc họ với nhau, để mặc người khác phải dọn dẹp đống đổ nát bừa bãi mà họ gây ra..."
Sau đó, các nhà nghiên cứu ước tính xác suất mỗi mô hình AI hoàn thành được các đoạn trích nguyên văn.
Các trích đoạn được lấy từ 36 cuốn sách có bản quyền, bao gồm các đầu sách phổ biến như Trò chơi Vương quyền của George R. R. Martin hay Dấn thân của Sheryl Sandberg. Các nhà nghiên cứu cũng đã thử nghiệm các trích đoạn từ những cuốn sách của nguyên đơn trong vụ Kadrey kiện Meta Platforms.
Những trích đoạn này sau đó được thí nghiệm trên 13 mô hình AI nguồn mở, bao gồm các mô hình do Meta, Google, DeepSeek, EleutherAI và Microsoft phát triển và phát hành.
Kết quả thử nghiệm cho thấy mô hình Llama 3.1 70B của Meta ghi nhớ hầu hết cuốn sách đầu tiên trong bộ truyện Harry Potter của J. K. Rowling cũng như Đại gia Gatsby. Các mô hình AI khác không ghi nhớ được nhiều. Meta hiện từ chối bình luận về những kết quả này.

Mô hình Llama 3.1 70B của Meta ghi nhớ được nguyên văn của nhiều cuốn sách. Ảnh: The Scale.
Nguy cơ bồi thường thiệt hại lớn
Các nhà nghiên cứu ước tính rằng nếu một mô hình AI bị phát hiện vi phạm bản quyền đối với chỉ 3% tập dữ liệu Books3 thì họ có thể phải bồi thường thiệt hại theo luật định lên tới gần 1 tỷ USD và thậm chí phải đối mặt với những khoản bồi thường lớn hơn nếu họ nhận được lợi nhuận từ những hành vi vi phạm bản quyền đó.
Dù vậy, xét trên quy mô toàn ngành, Lemley cho rằng sự khác nhau giữa kết quả thử nghiệm đối với từng mô hình AI và cả giữa văn bản này và văn bản khác đang cho thấy “rất khó khăn nếu muốn thiết lập một quy tắc pháp lý rõ ràng cho mọi trường hợp”.
Thử nghiệm trên có thể là một "công cụ pháp lý tốt" để xác định mức độ ghi nhớ của AI, luật sư Randy McCarthy tại công ty luật Hall Estill ở Oklahoma cho biết.
Tuy nhiên, nó vẫn chưa giải quyết được câu hỏi về quyền “sử dụng hợp lý” tại Mỹ, theo đó, các mô hình AI được tự do sử dụng các tác phẩm bản quyền trong một số trường hợp.
Tuy nhiên, phát hiện trên có thể có vai trò quan trọng hơn tại Vương quốc Anh. Theo luật sư Robert Lands tại công ty luật Howard Kennedy ở London, luật bản quyền của Vương quốc Anh tuân theo nguyên tắc "xử lý hợp lý" với các quy định chặt chẽ và hẹp hơn nhiều so với “quyền sử dụng hợp lý” tại Mỹ.
Vì vậy, ông cho biết nếu các mô hình AI được chứng minh là ghi nhớ trái phép nội dung tác phẩm thì chúng không đủ điều kiện nằm trong nguyên tắc “xử lý hợp lý”.
Nguồn Znews: https://znews.vn/ai-cua-meta-nho-duoc-nguyen-van-truyen-harry-potter-post1560021.html