Ra mắt dịch vụ đầu tiên trên thế giới chặn AI thu thập dữ liệu website khi chưa được phép

Cloudflare - công ty công nghệ hàng đầu thế giới trong lĩnh vực kết nối đám mây vừa công bố trở thành nhà cung cấp hạ tầng Internet đầu tiên trên thế giới chặn mặc định các trình thu thập dữ liệu AI (AI crawler) nếu chưa được sự cho phép của chủ sở hữu trang web.

Cloudflare trở thành nhà cung cấp cơ sở hạ tầng Internet đầu tiên chặn các trình thu thập dữ liệu AI truy cập mặc định nội dung khi chưa được phép hoặc chưa trả phí. (Ảnh: Cloudflare)

Cloudflare trở thành nhà cung cấp cơ sở hạ tầng Internet đầu tiên chặn các trình thu thập dữ liệu AI truy cập mặc định nội dung khi chưa được phép hoặc chưa trả phí. (Ảnh: Cloudflare)

Theo đó, từ tháng 7/2025, mọi tên miền sử dụng dịch vụ của Cloudflare (Mỹ) sẽ mặc định từ chối truy cập từ các trình thu thập dữ liệu AI, trừ khi có xác nhận đồng ý rõ ràng từ phía chủ trang.

Chính sách mới này nhằm ngăn chặn tình trạng các công ty phát triển trí tuệ nhân tạo (AI) tự ý “quét” nội dung văn bản, hình ảnh từ website để huấn luyện mô hình AI mà không xin phép hay chi trả cho chủ sở hữu dữ liệu.

Phát biểu về quyết định mang tính tiên phong này, ông Matthew Prince, đồng sáng lập kiêm Giám đốc điều hành Cloudflare nhấn mạnh: Nếu Internet muốn tồn tại trong , cần phải trả lại quyền kiểm soát cho những người sáng tạo nội dung, đồng thời vẫn giúp các công ty AI đổi mới và xây dựng một mô hình kinh tế mới phù hợp cho tất cả mọi người - nhà sáng tạo, người tiêu dùng, những nhà sáng lập AI trong tương lai và chính tương lai của web.

Trong nhiều thập kỷ qua, nội dung trên được tạo ra với kỳ vọng sẽ được công cụ tìm kiếm lập chỉ mục và hướng người dùng trở lại trang gốc, tạo ra lưu lượng truy cập và nguồn thu từ quảng cáo.

Tuy nhiên, theo Cloudflare, mô hình này đang sụp đổ khi nhiều hệ thống AI hiện đại “hút” nội dung như văn bản, bài viết và hình ảnh để tạo ra câu trả lời mà không đưa người truy cập đến nguồn dữ liệu gốc, khiến các nhà sáng tạo mất cả doanh thu lẫn động lực sáng tác.

Chính sách của Cloudflare không chỉ giúp các website dễ dàng chặn AI crawler bằng một cú nhấp chuột, mà còn buộc các công ty AI phải minh bạch trong khai báo mục đích sử dụng dữ liệu, như đào tạo mô hình, tìm kiếm, hay suy luận trước khi xin phép truy cập.

Nhiều tập đoàn truyền thông và công nghệ lớn trên thế giới đã ủng hộ động thái của Cloudflare. Ông Roger Lynch, Giám đốc điều hành Tập đoàn Condé Nast cho rằng, đây là bước tiến quan trọng hướng tới việc tạo ra một sự trao đổi giá trị công bằng trên Internet nhằm bảo vệ nhà sáng tạo, hỗ trợ báo chí chất lượng và buộc các công ty AI phải có trách nhiệm.

Steve Huffman, đồng sáng lập kiêm Giám đốc điều hành của Reddit cho biết, toàn bộ hệ sinh thái gồm các nhà sáng tạo, nền tảng, người dùng web và trình thu thập dữ liệu sẽ trở nên tốt hơn khi việc thu thập dữ liệu trở nên minh bạch và được kiểm soát tốt hơn.

Sở hữu một trong những mạng lưới lớn nhất thế giới, Cloudflare hiện quản lý và bảo vệ lưu lượng truy cập cho 20% website toàn cầu. Từ tháng 9/2024, công ty đã cung cấp tùy chọn chặn AI crawler cho hơn 1 triệu khách hàng. Bước đi mới trong tháng 7/2025 là nâng tùy chọn này thành mặc định cho tất cả tên miền mới, trao quyền kiểm soát ngay từ đầu cho người sở hữu nội dung.

Theo đó, các công ty hiện sẽ phải có được sự cho phép rõ ràng từ trang web trước khi tiến hành thu thập dữ liệu. Khi đăng ký với Cloudflare, mọi tên miền mới sẽ được hỏi xem họ có muốn cho phép trình thu thập dữ liệu AI hay không, giúp khách hàng có quyền lựa chọn ngay từ đầu cho phép hay không cho phép trình thu thập dữ liệu AI truy cập.

Sự thay đổi này có nghĩa là mọi tên miền mới sẽ mặc định được kiểm soát và chủ trang web không còn cần phải tự mình cấu hình từ chối nữa. Khách hàng có thể dễ dàng kiểm tra cài đặt của mình và cho phép thu thập dữ liệu bất kỳ lúc nào nếu họ muốn nội dung của mình được truy cập tự do.

Bên cạnh đó, Cloudflare cũng đang phối hợp phát triển một giao thức chuẩn giúp các bot AI có thể xác thực cũng như để các trang web nhận dạng các bot này, tạo điều kiện để hệ sinh thái nội dung trở nên minh bạch và có trách nhiệm hơn.

TRUNG HƯNG

Nguồn Nhân Dân: https://nhandan.vn/ra-mat-dich-vu-dau-tien-tren-the-gioi-chan-ai-thu-thap-du-lieu-website-khi-chua-duoc-phep-post891533.html