Internet sẽ thay đổi vĩnh viễn trong thời đại AI

7 giờ trước Gốc

Internet đang phân tách thành hai: một dành cho con người, một dành cho các bot. Mô hình lâu đời nhất của internet – mối quan hệ đôi bên cùng có lợi giữa các trang web và các trình thu thập dữ liệu – đang sụp đổ trước sự trỗi dậy của trí tuệ nhân tạo thế hệ mới…

Trong hàng thập kỷ, các trang web luôn chào đón các trình thu thập dữ liệu (crawlers). Việc bị “cào” dữ liệu bởi Google hay bất kỳ công cụ tìm kiếm nào đồng nghĩa với việc được lập chỉ mục, xếp hạng và khám phá. Cứ mỗi hai bot mà Google gửi đến một trang web, họ mang theo một người dùng. Do đó, việc bị cào dữ liệu từng là nguồn lưu lượng truy cập – và là cơ hội kinh doanh của các website doanh nghiệp và báo chí.

LƯU LƯỢNG TRUY CẬP TỪ CON NGƯỜI CHỮNG LẠI, LƯU LƯỢNG TỰ ĐỘNG TĂNG VỌT

Nhưng giờ đây, khi các công cụ AI thế hệ mới đua nhau “nuốt” toàn bộ internet, việc bị cào dữ liệu lại khiến các trang web bị bỏ qua.

Theo Cloudflare, cứ mỗi người dùng mà OpenAI – công ty đứng sau ChatGPT – gửi đến một trang web, họ gửi kèm tới 1.500 bot. Với Anthropic, con số này lên đến 60.000 bot. Lưu lượng truy cập từ con người đang chững lại, trong khi lưu lượng tự động tăng vọt, đôi khi vượt xa số lượng người dùng thực sự.

Khác với thời đại Google, các bot AI này thường không dẫn nguồn về nội dung gốc. Thay vào đó, các mô hình AI tổng hợp và cung cấp câu trả lời ngay trong giao diện của chúng, giữ người dùng ở lại và cắt đứt mối liên kết với các trang web cũng như nhà sáng tạo nội dung.

Bà Linda Tong, Giám đốc điều hành của Webflow – một công ty thiết kế và lưu trữ web – gọi đây là một trong những thay đổi sâu sắc nhất mà bà chứng kiến trong 20 năm điều hành các doanh nghiệp internet. “Nó đang thay đổi cơ bản cách mọi người tìm kiếm và tương tác với các thương hiệu”, bà nói. “Đối với một số doanh nghiệp, đây là mối đe dọa sống còn”.

Vấn đề cốt lõi là, trong khi dư luận tập trung vào nỗi lo AI thay thế lao động con người, một mối đe dọa gần hơn – sự đảo lộn nền kinh tế của internet – lại không được chú ý nhiều, dù nó đang phá vỡ chính những nguyên tắc cơ bản của thế giới trực tuyến.

KẾT THÚC KỶ NGUYÊN TÌM KIẾM: TỪ SEO ĐẾN AEO

Từ đầu những năm 1990, các bot bắt đầu thu thập dữ liệu web để lập bản đồ, lập chỉ mục và thúc đẩy sự phát triển của công cụ tìm kiếm. Trình thu thập như World Wide Web Wanderer đặt nền móng cho kỷ nguyên mà khả năng hiển thị quyết định sự tồn tại.

Khi Google ra mắt Backrub (sau này là Googlebot) vào năm 1996, một logic mới hình thành: cho phép quét nội dung để nhận lưu lượng truy cập. Trong 30 năm tiếp theo, thứ hạng trên Google định hình internet mở, tạo ra ngành công nghiệp SEO, kiến trúc thông tin và chiến lược nội dung để giúp doanh nghiệp tối ưu hóa hiệu quả.

Nhưng AI không tuân theo luật chơi cũ. Thay vì dẫn nguồn về nội dung gốc, các mô hình ngôn ngữ lớn (LLMs) như ChatGPT của OpenAI, Claude của Anthropic, hay thậm chí Gemini của Google, đọc và tái sử dụng nội dung – trả lời câu hỏi của người dùng trực tiếp, thường không kèm theo bất kỳ ghi nhận nào.

Sự thay đổi này đang làm xuất hiện một khái niệm mới: AEO (tối ưu hóa công cụ AI), cùng với các chiến lược để khiến nội dung dễ hiển thị hơn với AI và hiệu quả hơn khi được hấp thụ, ngay cả khi không dẫn đến lượt nhấp chuột. Nếu SEO định hình kỷ nguyên tìm kiếm, thì AEO có thể sẽ định nghĩa thời đại của AI thế hệ mới.

Bà Tong giải thích: “Các bot AI đang tổng hợp những gì chúng có thể truy cập và thu thập, rồi trình bày dưới dạng tước đi giá trị cốt lõi của trang web”. Không có lượt nhấp chuột. Không có ghi nhận. Chỉ có câu trả lời. Trên toàn hệ sinh thái internet, hơn 50% lưu lượng truy cập hiện nay đến từ các bot.

Khi lưu lượng bot tăng vọt, một số công ty bắt đầu đặt ra ranh giới. Họ xây dựng hai phiên bản trang web: một dành cho con người với hình ảnh, tính tương tác và câu chuyện thương hiệu; một phiên bản đơn giản hóa, tối ưu cho khả năng đọc của máy, được thiết kế để “nuôi” AI mà không tiết lộ toàn bộ nội dung giá trị.

Bà Tong nhấn mạnh: “Đối với con người, trang web của bạn cần phong phú, tương tác, và thú vị. Còn đối với bot? Bạn cần cấu trúc rõ ràng, dễ thu thập, nhưng có thể không cung cấp toàn bộ nội dung”. Một số nhà xuất bản hiện chỉ để lộ bản tóm tắt hoặc trích đoạn cho các bot, nhằm thu hút sự chú ý của AI mà không làm mất mô hình kiếm tiền của họ.

Kết quả là một mạng internet mới đang âm thầm ra đời, phân tách thành một phiên bản dành cho người dùng con người, và một phiên bản được thiết kế để cung cấp nội dung có chọn lọc cho các bot, nhằm bảo vệ giá trị của những lượt nhấp chuột.

HÀNH ĐỘNG CỦA CÁC DOANH NGHIỆP VÀ CƠ QUAN BÁO CHÍ

Đối với một số công ty, bao gồm chính Webflow, việc bị AI cào dữ liệu có thể là cơ hội kinh doanh. Nếu một người dùng hỏi ChatGPT về nền tảng xây dựng trang web tốt nhất và Webflow được đề xuất, đó là cơ hội tiếp cận giá trị – đặc biệt khi, theo bà Tong, người dùng đến từ AI thường “có trình độ cao hơn” và “sẵn sàng hành động” hơn so với những người đến từ tìm kiếm.

Nhưng logic này sụp đổ với các doanh nghiệp phụ thuộc vào cả lưu lượng truy cập và độc giả, đặc biệt là các hãng truyền thông, báo chí, nhà sáng tạo nội dung, hoặc những mô hình kinh doanh dựa vào lưu lượng truy cập web truyền thống.

Nếu một chatbot tóm tắt một bài báo hoặc rút ra các thông tin cốt lõi từ một hướng dẫn hoặc đánh giá, người dùng có thể không bao giờ nhấp vào liên kết. Không có lượt nhấp đồng nghĩa với không có quảng cáo, không có đăng ký email, không có dữ liệu khán giả, không có doanh thu – và không có giá trị thực tế.

Đối mặt với tình trạng này, các nhà xuất bản và nền tảng truyền thông, báo chí đang phản kháng. Một số đã ký thỏa thuận cấp phép – như Reddit, The New York Times và Vox Media – cho phép các công ty AI truy cập nội dung của họ để đổi lấy các khoản phí lớn.

Nhưng những thỏa thuận này là ngoại lệ, không phải quy tắc. Ông Singolda nhấn mạnh: “Không có đủ tiền trên thế giới để trả cho mọi nhà xuất bản có nội dung bị cào dữ liệu. Bạn không thể trả 100 triệu USD cho hàng nghìn đơn vị xuất bản”.

Bà Tong hình dung một tương lai khác: nơi các nhà xuất bản kiểm soát ai có thể truy cập nội dung của họ và truy cập những gì. Các doanh nghiệp phải phân biệt giữa bot tốt, bot xấu và các mô hình ngôn ngữ lớn (LLMs). Họ có thể chọn chia sẻ nội dung một phần, tóm tắt, hoặc không chia sẻ gì cả. Tuy nhiên, việc thực thi vẫn còn khó khăn.

Không phải bot nào cũng tuân thủ robots.txt – chính sách thu thập dữ liệu của trang web được viết bằng văn bản thuần túy. Một số công ty, như Perplexity, đã bị cáo buộc sử dụng máy chủ proxy để cào dữ liệu ngay cả khi bị chặn. Điều này có nghĩa là dù các rào cản được dựng lên, việc cào dữ liệu vẫn tiếp diễn.

Còn nhiều điều đang bị đe dọa hơn chỉ là lưu lượng truy cập. Trong một thế giới nơi các bot trả lời trước, sự khác biệt giữa được ghi nhận và bị “ăn cắp” nội dung có thể quyết định sự sống còn của cả một ngành công nghiệp. Hiện nay, một số trang do AI tạo ra không nhằm để con người đọc, mà để các AI khác cào dữ liệu, hình thành một vòng lặp khép kín của nội dung do máy tạo ra, dành cho máy.

Để đối phó, một số công ty đặt cược vào các mô hình mới, như Deeper Dive – một trải nghiệm AI tích hợp vào chính trang web của nhà xuất bản. Thay vì mất người dùng vào các bot bên ngoài, mô hình này cho phép khán giả đặt câu hỏi và nhận câu trả lời dựa trên nội dung có sẵn của nhà xuất bản. Theo đó, người đọc vẫn có tương tác AI, nhưng nhà xuất bản giữ được mối quan hệ, lưu lượng truy cập và niềm tin.

Niềm tin có thể trở thành đồng tiền giá trị nhất. Trong một thế giới của những câu trả lời mượt mà, con người vẫn khao khát điều gì đó chân thực.

Hoàng Hà