Meta thu thập bài đăng Facebook, Instagram của hàng tỉ người dùng để đào tạo AI

12/9/2024 Gốc

Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram trưởng thành đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình trí tuệ nhân tạo (AI) của họ.

Trang ABC News (Úc) đưa tin Melinda Claybaugh, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms, ban đầu bác bỏ các tuyên bố về việc sử dụng dữ liệu người dùng từ năm 2007 để đào tạo AI trong một cuộc điều tra của chính phủ nước này trước khi thừa nhận sau khi bị chất vấn thêm.

"Sự thật là trừ khi bạn đã đặt các bài đăng đó ở chế độ riêng tư kể từ năm 2007, Meta đã quyết định thu thập tất cả ảnh và văn bản từ mọi bài đăng công khai trên Instagram hoặc Facebook...", Thượng nghị sĩ David Shoebridge thuộc đảng Xanh nhấn mạnh trong cuộc điều tra.

David Shoebridge hỏi: "Đó là thực tế, phải không?". "Đúng vậy", Melinda Claybaugh trả lời.

Trung tâm quyền riêng tư và bài đăng trên blog của Meta Platforms thừa nhận việc thu thập bài đăng và bình luận công khai từ Facebook, Instagram để đào tạo AI tạo sinh: “Chúng tôi sử dụng bài đăng và bình luận công khai trên Facebook và Instagram để đào tạo các mô hình AI tạo sinh cho những tính năng này và cho cộng đồng nguồn mở. Chúng tôi không sử dụng các bài đăng hoặc bình luận với đối tượng khác ngoài chế độ công khai cho mục đích này”.

Thế nhưng, công ty đã mơ hồ về cách sử dụng dữ liệu, khi nào bắt đầu thu thập và phạm vi thực hiện việc này đến đâu.

Khi được trang The New York Times hỏi vào tháng 6, Meta Platforms không trả lời, ngoài việc xác nhận rằng việc đặt bài đăng thành bất cứ thứ gì khác ngoài chế độ công khai sẽ ngăn chặn việc thu thập dữ liệu trong tương lai. Tất nhiên, điều đó sẽ không xóa dữ liệu đã bị Meta Platforms thu thập. Những người đăng bài trên Facebook và Instagram từ năm 2007 trở lại đây sẽ không biết ảnh và bài của họ sẽ được Meta Platforms sử dụng theo cách này.

Melinda Claybaugh cho biết Meta Platforms không thu thập dữ liệu từ người dùng dưới 18 tuổi. Khi Thượng nghị sĩ Tony Sheldon thuộc đảng Lao động (Úc) hỏi liệu Meta Platforms có thu thập ảnh đăng công khai về con cái ông trên tài khoản cá nhân của ông không, Melinda Claybaugh xác nhận là “có”. Thế nhưng, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms không làm rõ liệu công ty có thu thập dữ liệu từ các tài khoản được tạo khi người dùng vẫn còn là trẻ em hay không.

Người dùng ở EU có quyền lựa chọn không tham gia việc thu thập dữ liệu của họ để đào tạo AI nhờ vào các quy định bảo vệ quyền riêng tư tại địa phương. Meta Platforms gần đây bị cấm sử dụng dữ liệu cá nhân của người Brazil để đào tạo AI, nhưng hàng tỉ người dùng Facebook và Instagram ở các khu vực khác không thể chọn không tham gia nếu muốn giữ bài đăng công khai.

Melinda Claybaugh không thể nói liệu người dùng Úc (hoặc bất kỳ ai khác) có được lựa chọn không tham gia việc thu thập dữ liệu của họ trong tương lai hay không. Ông lập luận rằng tùy chọn này được cung cấp cho người dùng ở EU do không chắc chắn về bối cảnh pháp lý của nó.

"Meta Platforms nói rõ hôm nay rằng nếu Úc có những luật tương tự, dữ liệu của người Úc cũng sẽ được bảo vệ. Việc chính phủ không hành động về quyền riêng tư đồng nghĩa các công ty như Meta đang tiếp tục kiếm tiền và khai thác hình ảnh, video của trẻ em trên Facebook", Thượng nghị sĩ David Shoebridge nói với ABC News.

Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình AI của họ - Ảnh: Getty Images

Các bot mới của Meta thu thập dữ liệu web lén lút để đào tạo AI, chỉ 1 đến 1,5% trang hàng đầu chặn được

Meta Platforms gần đây đã tung ra các bot mới có thể thu thập dữ liệu web cho mô hình AI và sản phẩm liên quan mà ít trang chặn được.

Các bot mới này có các tính năng khiến chủ sở hữu trang web khó chặn nội dung của họ bị sao chép và thu thập.

Theo Meta Platforms, bot Meta-ExternalAgent "dành cho các trường hợp sử dụng như đào tạo các mô hình AI hoặc cải thiện sản phẩm bằng cách lập chỉ mục nội dung trực tiếp".

Có tên Meta-ExternalFetcher, bot thứ hai liên quan đến các dịch vụ trợ lý AI của Meta Platforms và thu thập liên kết web để hỗ trợ những chức năng sản phẩm cụ thể.

Hai bot này lần đầu tiên xuất hiện vào khoảng tháng 7, theo trang web lưu trữ của Meta Platforms được phân tích bởi Originality.ai - công ty khởi nghiệp chuyên phát hiện nội dung AI.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến. Công ty tập trung vào việc giúp các nhà xuất bản và doanh nghiệp bảo vệ nội dung của họ khỏi bị sao chép hoặc sử dụng trái phép.

Các công ty khởi nghiệp và gã khổng lồ công nghệ đang chạy đua để xây dựng mô hình AI mạnh mẽ nhất. Một thành phần quan trọng là dữ liệu đào tạo chất lượng cao. Một trong những cách chính để thu thập dữ liệu này là gửi các bot lên web để sao chép và thu thập nội dung trực tuyến. Google, OpenAI, Anthropic và một số công ty AI khác đều có những bot này.

Nếu muốn chặn những bot như vậy, chủ sở hữu nội dung sử dụng một quy tắc đã được thiết lập sẵn có tên robots.txt. Quy tắc này ngăn chặn việc tự động thu thập dữ liệu từ trang web. Đây là đoạn mã đã được sử dụng từ cuối những năm 1990 và được chấp nhận rộng rãi như một trong những quy tắc không chính thức hỗ trợ web.

Tuy nhiên, nhu cầu về dữ liệu đào tạo AI đã làm suy yếu hệ thống này. Vào tháng 6, OpenAI và Anthropic đã bị phát hiện qua mặt hoặc lách robots.txt.

Meta lách quy tắc

Meta Platforms cũng có thể đang cố gắng qua mặt robots.txt theo những cách tinh vi. Công ty mẹ Facebook thông báo rằng bot Meta-ExternalFetcher "có thể qua mặt các quy tắc robots.txt".

Trong khi đó, bot Meta-ExternalAgent thực hiện đến hai chức năng, điều khá bất thường. Một là thu thập dữ liệu đào tạo AI, trong khi chức năng còn lại là lập chỉ mục nội dung.

Chủ sở hữu trang web có thể muốn chặn Meta Platforms khỏi việc thu thập dữ liệu để đào tạo mô hình AI, nhưng cũng muốn gã khổng lồ công nghệ Mỹ lập chỉ mục trang web (còn gọi là indexing) của họ để nhiều người dùng truy cập hơn.

Việc kết hợp cả hai chức năng trong một bot duy nhất khiến việc chặn trở nên khó khăn hơn. Chỉ có 1,5% các trang web hàng đầu chặn được bot Meta-ExternalAgent, theo Originality.ai. Con số này ít hơn nhiều so với FacebookBot, trình thu thập dữ liệu Meta Platforms trước đó.

FacebookBot thu thập dữ liệu trực tuyến trong nhiều năm để đào tạo các mô hình ngôn ngữ lớn và công nghệ nhận dạng giọng nói AI của Meta Platforms. Theo Originality.ai, bot này bị gần 10% các trang web hàng đầu chặn, gồm cả Twitter và Yahoo.

Theo Originality.ai, bot mới khác là Meta-ExternalFetcher đang bị chưa đến 1% các trang web hàng đầu chặn.

Jon Gillham, Giám đốc điều hành Originality.ai nói: "Các công ty nên cung cấp khả năng cho trang web chặn dữ liệu của họ khỏi việc bị thu thập và sử dụng để đào tạo AI mà không làm giảm khả năng hiển thị nội dung trang web trong sản phẩm của họ".

Người phát ngôn của Meta Platforms phản bác lại điều này bằng cách nói rằng công ty đang cố gắng "giúp các nhà xuất bản dễ dàng chỉ ra sở thích của họ hơn".

"Giống như các công ty khác, chúng tôi đào tạo các mô hình AI tạo sinh của mình trên nội dung có sẵn công khai trực tuyến. Chúng tôi nhận ra rằng một số nhà xuất bản và chủ sở hữu tên miền web muốn có các tùy chọn khi nói đến trang web và AI tạo sinh của họ", người phát ngôn Meta Platforms viết trong email gửi cho trang Insider.

Meta Platforms có nhiều bot thu thập dữ liệu web để tránh "gói gọn tất cả trường hợp sử dụng dưới một tác nhân duy nhất, cung cấp nhiều sự linh hoạt hơn cho các nhà xuất bản web", người phát ngôn nói thêm.

Chủ sở hữu trang web có thể tìm thông tin về cách chặn bot mới của Meta Platforms tại đây.

Sơn Vân