NVIDIA bị kiện vì sử dụng tài liệu vi phạm bản quyền trong huấn luyện AI

2 giờ trước Gốc

NVIDIA đối mặt vụ kiện liên quan đến việc sử dụng tài liệu vi phạm bản quyền để huấn luyện trí tuệ nhân tạo, gây tranh cãi lớn trong ngành công nghệ.

NVIDIA đang bị 5 tác giả kiện vì sử dụng tác phẩm của họ lấy từ Anna’s Archive, thư viện bóng tối lớn nhất thế giới. Ảnh: Hardwarecooking.

Mới đây, NVIDIA đã trở thành bị đơn trong một vụ kiện tập thể liên quan đến bản quyền dữ liệu huấn luyện AI.

Nguyên đơn là 5 tác giả sở hữu nhiều tác phẩm đã đăng ký bản quyền. Đơn kiện cáo buộc NVIDIA trong quá trình phát triển mô hình ngôn ngữ lớn thế hệ tiếp theo bằng khuôn khổ NeMo Megatron, đã sử dụng bộ dữ liệu chứa tác phẩm vi phạm bản quyền của họ từ các thư viện sách vi phạm, còn được gọi là "thư viện bóng tối". NeMo Megatron là framework do NVIDIA phát triển, dùng để xây dựng, huấn luyện và triển khai các mô hình ngôn ngữ lớn.

Nguyên đơn đã đệ đơn kiện tại Tòa án Liên bang khu vực Bắc California. Hôm 31/1, NVIDIA đã nộp đơn yêu cầu tòa án bác bỏ đơn kiện, cho rằng nguyên đơn không cung cấp đủ chứng cứ vi phạm bản quyền và khẳng định hành vi của công ty là "sử dụng hợp lý". Tòa án đã lên lịch phiên điều trần vào ngày 2/4 để xem xét đơn yêu cầu của NVIDIA.

Các tài liệu nội bộ trong đơn kiện cho thấy NVIDIA đã chịu sức ép cạnh tranh từ OpenAI, để trình diễn công nghệ tiên tiến tại hội nghị các nhà phát triển năm 2023, họ đã sử dụng "thư viện bóng tối" để tải xuống hàng triệu cuốn sách vi phạm bản quyền nhằm huấn luyện mô hình ngôn ngữ lớn.

Ngoài ra, đơn kiện còn cáo buộc NVIDIA đã cung cấp công cụ và kịch bản cho khách hàng, khuyến khích và hỗ trợ họ tải xuống bộ dữ liệu vi phạm bản quyền.

Truyền thông quốc tế đưa tin về vụ kiện. Ảnh: Gigazine.

Giới lãnh đạo NVIDIA phê chuẩn hợp tác vi phạm bản quyền?

Chất lượng và số lượng dữ liệu huấn luyện đóng vai trò then chốt trong việc phát triển mô hình ngôn ngữ lớn, và sách được coi là một nguồn dữ liệu chất lượng cao. Đối với các nhà phát triển mô hình ngôn ngữ lớn, dữ liệu từ "thư viện bóng tối" dễ dàng tiếp cận và đáp ứng nhu cầu về sách cho quá trình huấn luyện.

Đơn kiện cho thấy NVIDIA đã phát hành nhiều mô hình ngôn ngữ lớn trong dòng NeMo Megatron. Các mô hình này, theo mô tả trên trang Hugging Face, được huấn luyện từ bộ dữ liệu The Pile do tổ chức nghiên cứu phi lợi nhuận EleutherAI phát hành.

The Pile bao gồm một tập con có tên là Books3, được lấy từ thư viện bóng tối Bibliotik, chứa khoảng 190 nghìn cuốn sách.

Ngoài việc sử dụng The Pile, NVIDIA còn bị cáo buộc đã hợp tác trực tiếp với các "thư viện bóng tối", sử dụng tài nguyên sách vi phạm bản quyền để huấn luyện các mô hình lớn, trong đó có Anna’s Archive, thư viện bóng tối lớn nhất thế giới.

Anna’s Archive, được thành lập vào tháng 11/2022. Tháng 1 vừa qua, Tòa án Liên bang Ohio đã ra lệnh cấm vĩnh viễn, yêu cầu Anna’s Archive phải xóa bỏ tất cả dữ liệu của cơ sở dữ liệu thư viện lớn nhất thế giới, WorldCat.

Đơn kiện tiết lộ toàn bộ quá trình liên hệ và thương lượng của NVIDIA với Anna’s Archive. Các tài liệu nội bộ cho thấy lý do NVIDIA tìm đến tài nguyên sách vi phạm là vì cạnh tranh gay gắt trong ngành. Vào tháng 9 năm 2022, NVIDIA phát hành dòng mô hình NeMo Megatron, sau đó sự thành công của ChatGPT của OpenAI khiến sự chú ý vào AI tăng mạnh.

Do đó, hội nghị các nhà phát triển vào mùa thu năm 2023 được xem là thời điểm quan trọng, nơi NVIDIA cần phải ra mắt mô hình ngôn ngữ tiên tiến nhất để duy trì sức cạnh tranh.

Trang web của thư viện bóng tối Anna’s Archive mà NVIDIA hợp tác. Ảnh: The Hindu.

Đơn kiện cho thấy khi thu thập dữ liệu cho các dự án nội bộ, NVIDIA đã tập trung vào việc thu thập dữ liệu từ sách. Tháng 8/2023, NVIDIA đã liên hệ với nhiều nhà xuất bản sách nhưng không thành công trong việc ký kết thỏa thuận cấp phép. Để giải quyết vấn đề này, NVIDIA đã liên hệ với Anna’s Archive để thảo luận về việc có thể truy cập nhanh vào dữ liệu của họ. Anna’s Archive đã đáp lại, đề nghị NVIDIA xác nhận nội bộ về việc hợp tác.

Chỉ một tuần sau khi liên hệ với Anna’s Archive, ban lãnh đạo NVIDIA đã nhanh chóng phê duyệt kế hoạch hợp tác. Anna’s Archive sau đó cung cấp cho NVIDIA quyền truy cập vào hàng triệu cuốn sách vi phạm bản quyền, tổng dung lượng tới 500TB.

Ngoài Anna’s Archive và The Pile, NVIDIA còn bị cáo buộc tải xuống sách từ các "thư viện bóng tối" khác như Z-Library, LibGen và Sci-Hub.

Anna's Archive cho biết trên trang web của mình: "Các mô hình ngôn ngữ lớn cần dữ liệu chất lượng cao để phát triển mạnh mẽ. Chúng tôi sở hữu tài nguyên sách, bài báo, tạp chí lớn nhất thế giới, đây là nguồn tài nguyên văn bản chất lượng cao. Chúng tôi cung cấp quyền truy cập cấp doanh nghiệp với tốc độ cao đổi lấy khoản quyên góp trị giá chỉ hàng chục nghìn USD".

Mô hình kinh doanh này đã giúp "thư viện bóng tối" duy trì hoạt động, mặc dù đối mặt với rủi ro pháp lý lớn. Anna’s Archive cũng cho biết, trước khi AI phát triển, họ đã gặp khó khăn và gần như bị phá sản. Tuy nhiên, khi nhu cầu từ các công ty AI trở nên mạnh mẽ, họ đã cung cấp quyền truy cập cho khoảng 30 công ty.

Sử dụng tài nguyên sách vi phạm bản quyền để huấn luyện AI cũng mang lại rủi ro lớn về vi phạm bản quyền. Báo cáo "Bản quyền và AI" của Cục Bản quyền Mỹ vào tháng 5/2025 chỉ ra rằng, trong giai đoạn thu thập và xử lý dữ liệu, việc tải xuống, chuyển đổi và chỉnh sửa tác phẩm có bản quyền có thể xâm phạm quyền sao chép, chỉnh sửa và biến đổi, đặc biệt là trong trường hợp sử dụng thương mại.

Hiện đã có nhiều công ty công nghệ bị kiện vì vi phạm bản quyền trong lĩnh vực huấn luyện AI. Ảnh: Zhihu.

Không chỉ mình NVIDIA

Thị trường mô hình lớn đang bùng nổ, không chỉ có NVIDIA gặp rắc rối pháp lý về dữ liệu huấn luyện bản quyền. Các ông lớn như OpenAI, xAI, Anthropic, Meta cũng lần lượt gặp kiện tụng. Trong một vụ kiện vi phạm, Anthropic đã đồng ý trả ít nhất 1,5 tỷ USD để đạt được hòa giải, lập kỷ lục về mức độ đền bù bản quyền.

Vào tháng 6/2025, một tòa án ở Bắc California đã ra phán quyết về vụ kiện vi phạm bản quyền liên quan đến Anthropic, xác nhận rằng việc sử dụng tác phẩm có bản quyền để huấn luyện AI là hành động "hợp lý". Tuy nhiên, nếu tải xuống sách vi phạm bản quyền từ các thư viện bóng tối, thì hành động này không thể biện minh bằng lý do hợp lý sử dụng.

Sau vụ kiện với Anthropic, nhiều tác giả và bên nắm bản quyền đã tiếp tục đệ đơn kiện. Vào tháng 12/2025, một nhóm tác giả, gồm các nhà báo của New York Times, đã kiện Google, OpenAI, xAI, Anthropic, Meta và Perplexity vì sử dụng sách có bản quyền để huấn luyện hệ thống AI mà không có sự cho phép.

Tại Trung Quốc, vụ kiện của iQiyi chống lại MiniMax cũng thu hút sự chú ý, đánh dấu vụ kiện đầu tiên do một nền tảng video Trung Quốc tiến hành liên quan đến dữ liệu huấn luyện AI. Vào tháng 1/2025, các tin trên truyền thông cho biết iQiyi đã đệ đơn kiện lên Tòa án quận Từ Hối, Thượng Hải, cáo buộc MiniMax xâm phạm bản quyền của mình trong quá trình huấn luyện mô hình AI và tạo nội dung, đòi bồi thường khoảng 100.000 NDT. iQiyi cho biết vụ việc vẫn đang trong quá trình tố tụng.

Ngoài ra, các nhà xuất bản lớn cũng đã bắt đầu khởi kiện các công ty AI. Các vụ kiện này có thể dẫn đến một loạt các thỏa thuận cấp phép hoặc kiện tụng kéo dài, nhưng hiện tại, các thẩm phán có xu hướng thận trọng trong việc đưa ra các phán quyết có ảnh hưởng rộng.

Tình hình này đang đẩy các công ty AI vào một tình huống khó xử, khi phải đối mặt với cả nguy cơ vi phạm bản quyền và thách thức trong việc duy trì sự đổi mới trong ngành.

Theo Sina

Thu Thủy

Nguồn VietTimes: https://viettimes.vn/nvidia-bi-kien-vi-su-dung-tai-lieu-vi-pham-ban-quyen-trong-huan-luyen-ai-post194595.html