Hàng loạt công ty AI bị cáo buộc thu thập dữ liệu trái phép

30/7/2024 Gốc

Nhiều công ty trí tuệ nhân tạo đã bị cáo buộc tích cực thu thập dữ liệu từ các trang web để đào tạo hệ thống của mình, có khả năng vi phạm các quy định trong quá trình thu thập.

Các nhà phát triển AI dựa vào việc thu thập lượng lớn dữ liệu được lấy từ nhiều nguồn khác nhau để tạo ra các mô hình ngôn ngữ lớn. Đây là công nghệ đằng sau các chatbot như ChatGPT của OpenAI và đối thủ Claude của Anthropic.

Anthropic được thành lập bởi một nhóm cựu nghiên cứu viên của OpenAI với lời hứa phát triển các hệ thống AI "có trách nhiệm".

Tuy nhiên, Matt Barrie, giám đốc điều hành của Freelancer.com đã cáo buộc công ty có trụ sở tại San Francisco này xâm nhập dữ liệu vào cổng thông tin dành cho nhà báo tự do, nơi có hàng triệu lượt truy cập mỗi ngày.

Anthropic đã tạo ra một số chatbot tiên tiến nhất thế giới, cạnh tranh với ChatGPT của OpenAI, Ảnh: Jakub Porzycki

Theo dữ liệu được chia sẻ với Financial Times, Freelancer.com đã có 3,5 triệu lượt truy cập từ một "trình thu thập dữ liệu" web được liên kết với Anthropic trong vòng 4 giờ.

Barrie cho biết thêm rằng lượt truy cập từ các bot này vẫn tiếp tục tăng ngay cả sau khi Freelancer.com cố gắng từ chối các yêu cầu truy cập, sử dụng các giao thức web chuẩn để hướng dẫn trình thu thập thông tin. Sau đó, Barrie quyết định chặn hoàn toàn lưu lượng truy cập từ các địa chỉ internet của Anthropic.

Kyle Wiens, giám đốc điều hành của iFixit.com, cho biết trang web sửa chữa điện tử của ông đã nhận được 1 triệu lượt truy cập từ các bot Anthropic trong vòng 24 giờ. "Chúng tôi có rất nhiều báo động (do lưu lượng truy cập cao)", ông nói.

Wiens cho biết, điều khoản dịch vụ của iFixit cấm sử dụng dữ liệu của họ cho mục đích học máy. "Thông điệp đầu tiên của tôi gửi đến Anthropic là: nếu bạn sử dụng dữ liệu này để đào tạo mô hình của mình, thì đó là bất hợp pháp. Thông điệp thứ hai của tôi là: đây không phải là hành vi lịch sự trên internet", ông nói.

Thu thập dữ liệu không phải hoạt động mới nhưng nó đã tăng mạnh trong hai năm qua do cuộc chạy đua AI. Điều đó đã gây ra chi phí mới cho các trang web.

Động thái tự động thu thập dữ liệu người dùng để đào tạo chatbot của mạng xã hội X có thể vi phạm các quy tắc về quyền riêng tư của châu Âu. Ảnh: Reuters

Cơ quan giám sát bảo vệ dữ liệu của châu Âu đang điều tra về việc mạng xã hội X quyết định cho phép dữ liệu của người dùng được tự động đưa vào công ty khởi nghiệp trí tuệ nhân tạo xAI.

Cụ thể, ngày 26/7, người dùng X phát hiện rằng họ đã vô tình cho phép các bài đăng cũng như các tương tác của mình với chatbot Grok được sử dụng để "đào tạo và tinh chỉnh" các hệ thống của xAI.

Động thái này được thực hiện mà không có sự đồng ý chia sẻ dữ liệu rõ ràng của người dùng. Cài đặt không thể thay đổi trên ứng dụng di động của X, chỉ có thể thay đổi trên phiên bản máy tính.

Các chuyên gia về quyền riêng tư đã đặt câu hỏi liệu động thái của X có vi phạm các quy tắc của Quy định bảo vệ dữ liệu chung của EU hay không, trong đó yêu cầu các công ty thu thập hoặc sử dụng dữ liệu cá nhân trước tiên phải có được sự đồng ý của cá nhân và tiết lộ lý do thực hiện việc đó. Nếu cơ quan quản lý của Ireland mở cuộc điều tra, X có thể phải đối mặt với các khoản tiền phạt hoặc hình phạt.

Tháng trước, Meta đã tạm dừng kế hoạch đào tạo AI của mình trên dữ liệu từ nền tảng Facebook và Instagram tại châu Âu sau khi nhận được yêu cầu từ DPC Ireland về các vấn đề liên quan đến tuân thủ GDPR. Meta cho biết, điều này đánh dấu "một bước thụt lùi đối với sự đổi mới và cạnh tranh của châu Âu trong phát triển AI".

Ngọc Ánh (theo FT)

Nguồn Công Luận: https://congluan.vn/hang-loat-cong-ty-ai-bi-cao-buoc-thu-thap-du-lieu-trai-phep-post305394.html