Baidu chặn Google, Microsoft thu thập dữ liệu đào tạo mô hình AI

26/8/2024 Gốc

Động thái này cho thấy nỗ lực ngày càng tăng của Baidu nhằm bảo vệ tài sản trực tuyến khi nhu cầu về dữ liệu để đào tạo và xây dựng các mô hình, ứng dụng trí tuệ nhân tạo (AI) ngày càng tăng.

Baidu đã tăng cường nỗ lực bảo vệ tài sản trực tuyến khi nhu cầu về dữ liệu để sử dụng trong các dự án AI ngày càng tăng (Ảnh: SCMP)

Một cuộc khảo sát gần đây của SCMP cho thấy, gã khổng lồ tìm kiếm internet Trung Quốc - Baidu dường như đã bắt đầu chặn Google thuộc Alphabet và Bing của Microsoft thu thập nội dung để đào tạo AI trên nền tảng này.

Theo đó, bản cập nhật gần đây của Baidu Baike đã chặn hoàn toàn khả năng thu thập thông tin của Googlebot và Bingbot từ nền tảng Trung Quốc này.

Bản cập nhật này được áp dụng vào ngày 8 tháng 8, theo hồ sơ trên dịch vụ lưu trữ internet Wayback Machine. Trước đó, Baidu Baike vẫn cho phép Google và Bing thiết lập kho lưu trữ trực tuyến với gần 30 triệu dữ liệu.

Động thái này cho thấy nỗ lực ngày càng tăng của Baidu nhằm bảo vệ tài sản trực tuyến của mình khi nhu cầu về dữ liệu để đào tạo và xây dựng các mô hình, ứng dụng trí tuệ nhân tạo (AI) ngày càng tăng.

Động thái này diễn ra sau khi diễn đàn Reddit của Hoa Kỳ đã chặn hàng loạt nền tảng, ngoại trừ Google, thu thập dữ liệu trực tuyến của họ. Được biết, Google có một thỏa thuận trị giá hàng triệu USD với Reddit, cho phép họ thu thập dữ liệu từ nền tảng truyền thông xã hội này để đào tạo các dịch vụ AI của mình.

Theo báo cáo của Bloomberg, năm ngoái, Microsoft đã đe dọa sẽ cắt quyền truy cập vào dữ liệu tìm kiếm, nếu họ không ngừng sử dụng dữ liệu này làm cơ sở cho các chatbot và các dịch vụ AI tạo sinh (GenAI) khác..

Hơn hai năm sau khi ra mắt ChatGPT, nhiều nhà phát triển AI lớn trên thế giới đang thỏa thuận với các nhà xuất bản nội dung để tiếp cận nguồn dữ liệu chất lượng cho các dự án GenAI của họ.

Công nghệ GenAI đề cập đến các thuật toán và dịch vụ với khả năng tạo nội dung mới, bao gồm âm thanh, hình ảnh, văn bản, video...

Được biết, vào tháng 6, OpenAI đã ký kết một thỏa thuận với tạp chí Time của Mỹ cho phép công ty này tiếp cận toàn bộ nội dung được lưu trữ trong hơn 100 năm qua của tạp chí này.

Theo SCMP

Tiến Dũng