Vì sao nhiều YouTuber chấp nhận cho các hãng AI sử dụng dữ liệu?
Ngày càng có nhiều YouTuber cho phép các công ty AI sử dụng video của họ để huấn luyện mô hình. Điều đáng ngạc nhiên là nhiều người làm điều đó mà cần không nhận khoản thù lao nào.
Sẵn sàng chia sẻ không nhận thù lao
Theo cơ chế hiện tại của YouTube, người sáng tạo có thể tự nguyện đồng ý bằng cách tích chọn các ô cho phép khoảng 18 nhà phát triển AI lớn được sử dụng video của họ. Nếu không chọn ô nào, YouTube không cho phép sử dụng video đó cho mục đích huấn luyện AI. Điều này có nghĩa mặc định không tham gia cuộc chơi AI và mọi sự tham gia đều hoàn toàn tự nguyện.
Việc không nhận thù lao có thể khiến nhiều người thấy lạ, nhưng động cơ đằng sau lại dường như nằm ở tầm ảnh hưởng hơn là thu nhập. Đối với những người đồng ý, họ có thể xem đây là nước cờ chiến lược nhằm định hình cách công cụ AI tạo sinh diễn giải và trình bày thông tin. Bằng cách đóng góp nội dung của mình, họ giúp nội dung đó trở nên dễ hiển thị hơn trong các phản hồi do AI tạo ra.

Người sáng tạo chọn tầm ảnh hưởng thay vì thu nhập
Hệ quả là, công việc của họ có thể ảnh hưởng trực tiếp đến cách mà AI trả lời câu hỏi, từ các công cụ viết lách tự động cho đến những mô hình ngôn ngữ lớn (LLM) dùng trong lập trình. Hiện tại, Oxylabs đã ra mắt bộ dữ liệu YouTube đầu tiên dựa trên sự đồng thuận, bao gồm 4 triệu video từ 1 triệu kênh khác nhau.
Tất cả người đóng góp đều đồng ý rõ ràng cho việc sử dụng nội dung của họ trong huấn luyện AI. Theo Oxylabs, các video này, gồm cả bản chép lời (transcript) và siêu dữ liệu (metadata)... đã được tuyển chọn cẩn thận để đặc biệt phù hợp cho việc huấn luyện AI trong các tác vụ tạo ảnh và video.
Giúp tạo ra những sản phẩm chất lượng
CEO của Oxylabs là Julius Cerniauskas cho biết: “Trong một hệ sinh thái đang tìm kiếm sự cân bằng giữa tôn trọng bản quyền và thúc đẩy đổi mới, việc YouTube đơn giản hóa quy trình xin phép và cho người sáng tạo sự linh hoạt là một bước tiến quan trọng”.
Mô hình này không chỉ giúp đơn giản hóa quá trình tiếp cận dữ liệu hợp pháp cho các nhà phát triển AI, mà còn giúp trấn an người sáng tạo về cách nội dung của họ được sử dụng.
Cerniauskas nói thêm: “Rất nhiều chủ kênh đã chủ động đồng ý cho video của họ được dùng trong quá trình phát triển thế hệ công cụ AI tiếp theo. Điều này cho phép chúng tôi tạo ra và cung cấp các bộ dữ liệu video chất lượng cao, có cấu trúc rõ ràng. Trong khi đó, các nhà phát triển AI có thể dễ dàng xác minh nguồn gốc hợp pháp của dữ liệu”.
Tuy nhiên, những lo ngại rộng hơn vẫn tồn tại xung quanh cách các cơ quan chính phủ và cơ quan lập pháp xử lý các vấn đề tương tự. Ví dụ, Dự luật Dữ liệu (sử dụng và truy cập) của Anh đang bị đình trệ tại Quốc hội.
Trong khoảng trống lập pháp chưa được lấp đầy này, người sáng tạo và nhà phát triển sẽ phải đối mặt với sự bất định. Oxylabs tự định vị mình là một giải pháp dựa trên mô hình đồng thuận. Thế nhưng, các nhà phê bình vẫn sẽ đặt câu hỏi liệu những sáng kiến như vậy có thực sự giải quyết được những vấn đề sâu xa hơn về giá trị và công bằng hay không.