Các startup mở lối bán nội dung bản quyền để huấn luyện AI
Một loạt công ty khởi nghiệp (startup) đang xây dựng các nền tảng thị trường cũng như các công cụ hỗ trợ giới nghệ sĩ và nhà văn bán nội dung bản quyền cho các công ty công nghệ lớn để huấn luyện mô hình trí tuệ nhân tạo (AI).

Để đào tạo các mô hình AI, các công ty công nghệ cần dữ liệu chất lượng cao bao gồm nội dung sáng tạo của giới văn nghệ sĩ và các công ty truyền thông. Ipwatchdog.com
Thị trường dữ liệu AI dự báo tăng lên 67,5 tỉ đô la
Các startup mới thành lập như Pip Labs, Vermillio, Created by Humans, ProRata, Narrativ và Human Native đang xây dựng các công cụ và nền tảng thị trường nơi giới nhà văn, nhà xuất bản, nghệ sĩ cũng như hãng thu âm và hãng phim có thể được trả tiền để cấp phép sử dụng nội dung sáng tạo cho mục đích đào tạo AI.
Theo dữ liệu từ Dealroom.com, các startup về cấp phép nội dung và nền tảng thị trường dữ liệu này đã huy động được 215 triệu đô la Mỹ kể từ năm 2022.
Trong thời gian gần đây, các công ty AI hàng đầu gồm OpenAI, Meta và Google tìm cách ký kết thỏa thuận với các công ty truyền thông để được cấp phép sử dụng dữ liệu chất lượng cao. Các thỏa thuận như vậy không chỉ giúp cải thiện chất lượng mô hình AI mà còn giúp tránh kiện tụng quan đến vi phạm bản quyền hoặc bị các cơ quan quản lý nhắm mục tiêu.
“Hoạt động cấp phép nội dung không tồn tại trên internet mở sẽ là một ngành kinh doanh lớn”, Dan Neely, CEO kiêm đồng sáng lập của Vermillio, công ty cung cấp nền tảng để các nhà sáng tạo cấp phép nội dung cho các công ty AI nói. Vermillio đang hợp tác với các hãng phim và hãng thu âm lớn như Sony Pictures và Sony Music.
Vermillio dự báo, thị trường cấp phép nội dung cho AI sẽ tăng từ khoảng 10 tỉ đô la vào năm 2025 lên 67,5 tỉ đô la vào năm 2030. Sony Music và DNS Capital dẫn đầu vòng gọi vốn 16 triệu đô la mới nhất của Vermillio hồi tháng Ba.
Số lượng các thỏa thuận cấp phép nội dung cho AI đã tăng lên trong năm qua, với 16 thỏa thuận được ký kết vào tháng 12-2024, một con số kỷ lục, theo dữ liệu của Trung tâm quản lý kinh tế sáng tạo thuộc Đại học Glasgow (Scotland).
OpenAI và công cụ tìm kiếm AI Perplexity đều đã thực hiện hơn 20 thỏa thuận với các tập đoàn truyền thông kể từ năm 2023, đặc biệt là với các tổ chức báo chí.
“Bạn cần ba thứ để xây dựng mô hình AI: tài năng, điện toán và dữ liệu. Các công ty AI đã chi hàng triệu đô la cho hai thứ đầu tiên và đang chuẩn bị chi hàng triệu đô la cho thứ còn lại”, James Smith, CEO kiêm đồng sáng lập của Human Native (Anh) nói.
Hồi tháng 8-2024, quỹ mạo hiểm Andreessen Horowitz đã đầu tư 80 triệu đô la vào Pip Labs, startup sử dụng công nghệ blockchain để theo dõi và cấp phép nội dung sở hữu trí tuệ.
Cuối năm ngoái, startup ProRata được định giá 130 triệu đô la sau khi ký các thỏa thuận sử dụng nội dung với các nhà xuất bản lớn của Anh như The Guardian và DMG Media, chủ sở hữu của tờ Daily Mail.
ProRata phát triển các công cụ giúp phân tích đầu ra của AI để xác định và bồi thường cho từng nhà cung cấp nội dung. Startup này có hoạch chia sẻ doanh thu mỗi khi nội dung của các nhà xuất bản được các công ty AI sử dụng để trả lời truy vấn của người dùng.
Vẫn còn nhiều thách thức
Các thỏa thuận trên diễn ra trong bối cảnh các cơ quản quản lý trên toàn cầu đang giám sát chặt chẽ dữ liệu nào được sử dụng để đào tạo các mô hình AI.
Chẳng hạn, Anh đang cân nhắc nới lỏng các quy tắc bản quyền đối với đào tạo AI. Nhưng các công ty công nghệ như OpenAI và Google đang đối mặt với các vụ kiện vi phạm bản quyền ở Mỹ và các quy định mới ở Liên minh châu Âu (EU) yêu cầu trả nhiều tiền hơn cho nội dung có giá trị.
Trong tháng này, Meta, công ty mẹ của Facebook bị các nhà văn kiện ra tòa án tại Mỹ với cáo buộc sử dụng tác phẩm của họ để đào tạo mô hình ngôn ngữ Llama. Vụ xét xử này là cuộc sát hạch lớn đầu tiên về việc liệu các công ty AI có nên trả tiền cho dữ liệu đào tạo AI có bản quyền được thu thập từ internet hay không.
OpenAI, công ty đã thực hiện nhiều thỏa thuận chia sẻ dữ liệu, cũng vướng vào nhiều vụ kiện cáo buộc vi phạm bản quyền của các tập đoàn truyền thông bao gồm cả New York Times.
“Thay vì mất nhiều thời gian để thay đổi luật cho phù hợp, chúng tôi đang chứng minh rằng công nghệ của chúng tôi là giải pháp tốt hơn mà cả các công ty AI và chủ sở hữu quyền tác giả muốn sử dụng”, Jason Zhao, đồng sáng lập Pip Labs nói về công nghệ blockchain theo dõi và cấp phép sở hữu trí tuệ của công ty.
Startup Stability AI (Mỹ) cũng đang bị các nghệ sĩ kiện vì cho rằng công ty đã sử dụng sở hữu tài sản trí tuệ của họ để đào tạo mô hình AI. Prem Akkaraju, CEO Stability AI tiết lộ, công ty ông đang xây dựng một nền tảng thị trường nơi các nghệ sĩ hoặc chủ sở hữu nội dung sáng tạo có thể cấp phép (bán quyền sử dụng) tác phẩm để sử dụng trong huấn luyện AI.
Dù vậy, thị trường dữ liệu đào tạo AI non trẻ đang đương đầu nhiều thách thức. Các startup AI cần tìm đủ nhà cung cấp bộ dữ liệu để tạo ra một mô hình kinh doanh khả thi. Dữ liệu cần phải có chất lượng đủ cao và dễ dàng tiếp cận. Nhiều bộ dữ liệu từ internet bao gồm những nội dung độc hại như tài liệu lạm dụng tình dục trẻ em có thể khiến các công ty AI chịu tổn hại về danh tiếng hoặc bị kiện tụng.
Một trở ngại khác sẽ là thuyết phục các nghệ sĩ và nhà sáng tạo nội dung rằng việc bán nội dung để đào tạo mô hình AI sẽ có lợi.
“Rất nhiều công ty và nhà sáng tạo mà chúng tôi trao đổi vẫn chưa tin tưởng vào các giải pháp kỹ thuật liên quan đến bản quyền đã có hoặc đang được phát triển”, Gina Neff, giáo sư về AI có trách nhiệm của Đại học Queen Mary ở London nói.
Theo Financial Times