Hai tác giả kiện OpenAI vì 'nhập' sách của họ bất hợp pháp
Mona Awad và Paul Tremblay cáo buộc rằng sách của họ (có bản quyền) đã được 'dùng để đào tạo' ChatGPT vì chatbot tạo ra 'bản tóm tắt rất chính xác' về các tác phẩm.
Hai tác giả vừa đệ đơn kiện OpenAI, công ty đứng sau công cụ trí tuệ nhân tạo ChatGPT, cho rằng tổ chức này đã vi phạm luật bản quyền bằng cách “đào tạo” mô hình của mình trên các tiểu thuyết mà không có sự cho phép của tác giả.
Mona Awad, tác giả của các cuốn sách bao gồm Bunny và 13 Ways of Looking at a Fat Girl (tạm dịch: 13 cách nhìn vào một cô gái béo) và Paul Tremblay, tác giả của The Cabin at the End of the World (tạm dịch: Căn nhà gỗ nơi tận cùng thế giới) đã đệ đơn khiếu nại tập thể lên tòa án liên bang San Francisco (Mỹ).
ChatGPT cho phép người dùng đặt câu hỏi, nhập lệnh vào chatbot và trả lời bằng văn bản giống với mẫu ngôn ngữ của con người. Mô hình ChatGPT cơ bản được đào tạo với dữ liệu có sẵn công khai trên internet.
Tuy nhiên, Awad và Tremblay tin rằng sách của họ đã bị “nhập” và “dùng để đào tạo” ChatGPT một cách bất hợp pháp vì chatbot đã tạo ra “bản tóm tắt rất chính xác” về tiểu thuyết. Các bản tóm tắt mẫu được đưa vào vụ kiện dưới dạng tang vật.
Đây là vụ kiện đầu tiên chống lại ChatGPT liên quan đến bản quyền, theo Andres Guadamuz, một chuyên gia về luật sở hữu trí tuệ tại Đại học Sussex (Anh). Vụ kiện sẽ khám phá “biên giới tính hợp pháp” không chắc chắn của các hành động trong không gian AI sáng tạo.
Sách là lựa chọn lý tưởng để đào tạo các mô hình ngôn ngữ lớn vì chúng có xu hướng chứa “văn xuôi dài, chất lượng cao, được biên tập tốt”, hai luật sư của các tác giả, Joseph Saveri và Matthew Butterick, viết trong một email gửi tới Guardian. “Đó là tiêu chuẩn vàng về lưu trữ ý tưởng cho giống loài của chúng ta”.
Đơn khiếu nại viết rằng OpenAI thu lợi “không công bằng” từ “bài viết và ý tưởng bị đánh cắp” và kêu gọi bồi thường thiệt hại bằng tiền thay mặt cho tất cả các tác giả ở Mỹ có tác phẩm bị cáo buộc sử dụng để đào tạo ChatGPT.
Saveri và Butterick cho hay, mặc dù các tác giả có tác phẩm có bản quyền được “bảo vệ pháp lý rất tốt” nhưng họ đang phải đối đầu với các công ty “như OpenAI, những người hành xử như thể những luật này không áp dụng cho họ”.
Tuy nhiên, có thể khó chứng minh rằng các tác giả đã chịu tổn thất tài chính cụ thể do ChatGPT được đào tạo trên tài liệu có bản quyền, ngay cả khi điều sau đó hóa ra là chính xác.
Guadamuz cho biết, ChatGPT có thể hoạt động “giống hệt như cũ” nếu nó không nhập sách, bởi vì nó được đào tạo dựa trên vô số thông tin trên Internet, như người dùng Internet thảo luận về sách.
Saveri và Butterick nói rằng, OpenAI đã trở nên “ngày càng bí mật” về dữ liệu đào tạo của mình. Trước đó, OpenAI đưa ra một số manh mối về kích thước của “tập hợp sách dựa trên Internet” mà công ty sử dụng làm tài liệu đào tạo, cái mà họ chỉ gọi là Books2.
Các luật sư suy luận rằng kích thước của tập dữ liệu này - ước tính chứa 294.000 đầu sách - có nghĩa là sách chỉ có thể được lấy từ các thư viện ngầm như Library Genesis (LibGen) và Z-Library, qua đó sách được bảo mật hàng loạt thông qua hệ thống torrent.
Lilian Edwards, giáo sư về luật, đổi mới và xã hội tại Đại học Newcastle (Anh), cho biết: “Trường hợp này có thể sẽ phụ thuộc vào tòa án xem việc sử dụng tài liệu có bản quyền theo cách này là hợp lý hay không”.
Theo Edwards, chính phủ Anh đã “quan tâm đến việc thúc đẩy một ngoại lệ đối với bản quyền cho phép sử dụng miễn phí tài liệu có bản quyền để khai thác văn bản và dữ liệu, thậm chí cho các mục đích thương mại”.
Linh Nhi (Theo The Guardian)