Google sử dụng video YouTube để huấn luyện AI
Google đang tận dụng kho video khổng lồ trên YouTube để huấn luyện các mô hình trí tuệ nhân tạo (AI), bao gồm Gemini cũng như công cụ tạo video và âm thanh Veo 3.
20 tỷ video trên YouTube
Theo một nguồn tin, Google đang sử dụng bộ sưu tập 20 tỷ video trên YouTube để phát triển các công cụ AI hiện đại này. Google xác nhận họ sử dụng video từ YouTube để huấn luyện AI, nhưng chỉ với một phần video và tuân theo các thỏa thuận cụ thể với nhà sáng tạo nội dung cũng như các công ty truyền thông.

Google sử dụng bộ sưu tập 20 tỷ video trên YouTube để phát triển các công cụ AI hiện đại.
"Chúng tôi luôn dùng nội dung YouTube để cải thiện sản phẩm và điều này không thay đổi khi áp dụng AI. Chúng tôi cũng nhận thức được cần có rào chắn bảo vệ, vì vậy đã đầu tư mạnh vào các biện pháp bảo vệ, giúp nhà sáng tạo kiểm soát hình ảnh và bản sắc của họ trong kỷ nguyên AI - điều chúng tôi cam kết duy trì", phát ngôn viên của YouTube cho biết.
Tuy nhiên, các chuyên gia cảnh báo việc sử dụng video YouTube như vậy có thể dẫn đến khủng hoảng về quyền sở hữu trí tuệ đối với nhà sáng tạo và công ty truyền thông.
Mặc dù YouTube khẳng định đã công khai thông tin này trước đây, các chuyên gia nói nhiều nhà sáng tạo và tổ chức truyền thông không biết Google đang dùng video của họ để huấn luyện AI. YouTube không tiết lộ cụ thể bao nhiêu video trong số 20 tỷ video hoặc những video nào được sử dụng. Nhưng với quy mô của nền tảng, nếu chỉ 1% video được dùng, đó đã là 2,3 tỷ phút nội dung - gấp hơn 40 lần dữ liệu huấn luyện của các mô hình AI đối thủ.
Trong một bài blog, Google cho biết nội dung YouTube có thể được dùng để cải thiện trải nghiệm sản phẩm… bao gồm ứng dụng máy học và AI. Người dùng tải video lên YouTube không có cách nào từ chối việc Google sử dụng video của họ để huấn luyện AI.
"Có khả năng Google đang lấy dữ liệu từ nhiều nhà sáng tạo đã bỏ thời gian, công sức và tâm huyết vào video của họ. Điều này giúp mô hình Veo 3 tạo ra phiên bản tổng hợp, một bản sao kém chất lượng của các nhà sáng tạo. Điều đó không công bằng với họ", ông Luke Arrigoni, CEO của Loti - công ty bảo vệ danh tính số cho nhà sáng tạo, nhận định.
Truyền thông đã phỏng vấn nhiều nhà sáng tạo hàng đầu và chuyên gia về sở hữu trí tuệ, nhưng không ai biết hoặc được YouTube thông báo rằng nội dung của họ có thể được dùng để huấn luyện AI của Google.
Thông tin này đáng chú ý sau khi Google công bố Veo 3 hồi tháng 5, một trong những công cụ tạo video AI tiên tiến nhất thị trường. Trong buổi ra mắt, Google trình diễn các đoạn video chất lượng như phim, như cảnh một ông lão trên thuyền hay động vật kiểu Pixar trò chuyện. Toàn bộ hình ảnh và âm thanh trong các cảnh này đều do AI tạo ra.
Theo YouTube, trung bình mỗi ngày có 20 triệu video được tải lên từ các nhà sáng tạo độc lập và hầu hết các công ty truyền thông lớn. Nhiều nhà sáng tạo lo ngại rằng họ có thể đang vô tình giúp huấn luyện một hệ thống có thể cạnh tranh hoặc thay thế họ trong tương lai.
"Việc tiết lộ họ dùng loại video nào và bao nhiêu video để huấn luyện không ảnh hưởng đến lợi thế cạnh tranh của Google. Điều duy nhất bị ảnh hưởng là mối quan hệ với các nhà sáng tạo", ông Arrigoni nói.
Google chịu trách nhiệm pháp lý và chi phí
Dù kết quả cuối của Veo 3 không sao chép trực tiếp tác phẩm hiện có, nội dung tạo ra vẫn cung cấp cho các công cụ thương mại có thể cạnh tranh với nhà sáng tạo đã cung cấp dữ liệu huấn luyện, mà không được ghi nhận, đồng ý hay bồi thường.

Veo 3 là một công cụ AI tiên tiến của Google, được thiết kế để tạo ra video và âm thanh chất lượng cao.
Khi tải video lên YouTube, người dùng đồng ý rằng YouTube có quyền sử dụng nội dung rộng rãi. Điều khoản dịch vụ nêu rõ: "Bằng cách cung cấp nội dung cho Dịch vụ, bạn cấp cho YouTube giấy phép toàn cầu, không độc quyền, miễn phí bản quyền, có thể cấp phép lại và chuyển giao để sử dụng nội dung đó".
"Ngày càng nhiều nhà sáng tạo phát hiện phiên bản giả mạo của họ lan truyền trên các nền tảng. Các công cụ như Veo 3 chỉ khiến xu hướng này tăng tốc", ông Dan Neely, CEO của Vermillio - công ty giúp bảo vệ bản sắc cá nhân khỏi bị lạm dụng, chia sẻ.
Ông Neely cho biết, dù YouTube có quyền sử dụng nội dung này, nhiều nhà sáng tạo không biết video của họ đang được dùng để huấn luyện AI tạo video. Vermillio dùng công cụ Trace ID để đánh giá mức độ tương đồng giữa video do AI tạo và video gốc. Điểm số từ 0 đến 100, và bất kỳ điểm nào trên 10 cho video có âm thanh đều được coi là đáng kể. Trong một ví dụ, video của nhà sáng tạo Brodie Moss khớp với nội dung do Veo 3 tạo, đạt điểm 71, với âm thanh riêng lẻ đạt trên 90.
"Tôi coi đây là cạnh tranh thân thiện hơn là đối thủ. Tôi cố gắng nhìn nhận tích cực vì đây là điều không thể tránh khỏi – nhưng là một điều thú vị", một số nhà sáng tạo, như Sam Beres với 10 triệu người theo dõi, lại tỏ ra cởi mở.
Google có điều khoản bồi thường cho các sản phẩm AI, bao gồm Veo, nghĩa là nếu người dùng gặp tranh chấp bản quyền vì nội dung AI tạo ra, Google sẽ chịu trách nhiệm pháp lý và chi phí.
YouTube cũng hợp tác với Creative Artists Agency vào tháng 12/2024 để giúp các tài năng hàng đầu quản lý nội dung AI liên quan đến hình ảnh của họ. YouTube có công cụ cho phép nhà sáng tạo yêu cầu gỡ video nếu họ cho rằng video đó lạm dụng hình ảnh của mình, nhưng Arrigoni cho rằng công cụ này chưa đáng tin cậy.
YouTube cho phép nhà sáng tạo từ chối việc huấn luyện AI của các công ty như Amazon, Apple, Nvidia, nhưng không thể ngăn Google dùng video để huấn luyện mô hình riêng.
Tuần trước, Walt Disney và Universal đã cùng kiện Midjourney - một công cụ tạo hình ảnh AI, vì vi phạm bản quyền, đánh dấu vụ kiện đầu tiên từ Hollywood.
"Những người chịu thiệt là các nghệ sĩ, nhà sáng tạo và những thiếu niên có cuộc sống bị đảo lộn. Chúng ta phải trao lại quyền kiểm soát mạnh mẽ và có thể thực thi cho cá nhân về hình ảnh và tài sản của họ, nếu không điều này sẽ không bao giờ dừng lại", Thượng nghị sĩ Josh Hawleyphát biểu tại một phiên điều trần Thượng viện Hoa Kỳ hồi tháng 5.