Báo chí và xuất bản trước làn sóng AI: Hợp tác chia sẻ hay đối đầu sinh tồn?
Sự phát triển của trí tuệ nhân tạo tạo sinh (GenAI) đã đặt ngành công nghiệp báo chí và xuất bản toàn cầu trước một ngã rẽ sinh tử: hợp tác để cùng phát triển hay đối đầu để bảo vệ tài sản trí tuệ.
Lấy vụ kiện của The New York Times với OpenAI làm tiền đề phân tích, bài viết chỉ ra những rủi ro hiện hữu đối với báo chí Việt Nam trước định hướng lập pháp cho phép sử dụng dữ liệu công khai làm đầu vào huấn luyện trí tuệ nhân tạo (AI). Dưới góc nhìn kinh tế học và phân tích chiến lược, bài viết lập luận rằng quy định này có nguy cơ tạo ra một “thất bại thị trường”, tước bỏ quyền đàm phán thương mại của các cơ quan báo chí và đẩy họ vào cuộc khủng hoảng doanh thu nghiêm trọng.

Cú hích từ vụ kiện thế kỷ và ngã rẽ pháp lý của Việt Nam
Tháng 12-2023, tờ The New York Times (NYT) chính thức đệ đơn kiện OpenAI và Microsoft, cáo buộc các tập đoàn công nghệ này sử dụng trái phép hàng triệu bài báo có bản quyền để huấn luyện các mô hình ngôn ngữ lớn (LLMs). Vụ kiện này không đơn thuần là một tranh chấp pháp lý về sở hữu trí tuệ (SHTT), mà được giới quan sát nhận định là cột mốc đánh dấu sự chấm dứt của kỷ nguyên “AI ngây thơ”, giai đoạn mà các công ty công nghệ có thể tự do khai thác dữ liệu web mà không gặp phải sự kháng cự đáng kể. Nó mở ra một kỷ nguyên mới, nơi trách nhiệm giải trình và nghĩa vụ trả phí cho dữ liệu đầu vào trở thành tâm điểm của các cuộc đàm phán toàn cầu. Vụ kiện đã gửi đi một thông điệp mạnh mẽ rằng dữ liệu báo chí không phải là tài nguyên vô chủ, mà là tài sản trí tuệ cần được định giá và bảo vệ.
Nếu luật pháp cho phép sử dụng dữ liệu công khai làm đầu vào mà không định nghĩa chặt chẽ thế nào là nguồn “hợp pháp” hay “tiếp cận hợp pháp” (lawful access) như mô hình của Liên minh châu Âu, thì các hệ thống AI sẽ đường hoàng thu thập dữ liệu từ các “kho lậu”. Khi đó, báo chí chính thống sẽ chịu thiệt hại kép: vừa bị các trang web lậu đánh cắp nội dung, vừa bị các hệ thống AI sử dụng chính dữ liệu bị đánh cắp đó để huấn luyện và quay lại cạnh tranh thị phần độc giả.
Trong khi thế giới đang chuyển dịch theo hướng siết chặt quản lý bản quyền AI, thì tại Việt Nam, các thảo luận xoay quanh Luật SHTT sửa đổi ngày 10-12-2025 (Luật SHTT) lại cho thấy một xu hướng ngược lại. Tại khoản 5 điều 7 của Luật SHTT, điều kiện để dữ liệu được sử dụng làm đầu vào huấn luyện AI là phải thỏa mãn ba yếu tố: (i) đã được công bố hợp pháp, (ii) công chúng được phép tiếp cận, và (iii) việc sử dụng không được gây ảnh hưởng bất hợp lý đến quyền và lợi ích hợp pháp của tác giả, chủ sở hữu quyền SHTT.
Định hướng này, thoạt nhìn, mang lại lợi ích ngắn hạn cho việc thúc đẩy hệ sinh thái công nghệ nội địa bằng cách giảm thiểu chi phí tiếp cận dữ liệu. Tuy nhiên, dưới góc độ kinh tế - pháp lý, quy định “cho phép dùng dữ liệu công khai” này tiềm ẩn nguy cơ trở thành một “cái bẫy” đối với ngành công nghiệp nội dung. Nó có vẻ thúc đẩy công nghệ trong ngắn hạn, nhưng sẽ triệt tiêu động lực sáng tạo và nguồn thu của báo chí, xuất bản trong dài hạn. Nếu không có một cơ chế chia sẻ lợi ích rõ ràng và quyền kiểm soát dữ liệu chặt chẽ, báo chí Việt Nam sẽ đối mặt với cuộc khủng hoảng sinh tồn, không phải vì sự lạc hậu về công nghệ, mà vì bị tước đoạt quyền tài sản đối với chính “nguyên liệu” mà họ sản xuất.
Từ vụ kiện giữa The New York Times và OpenAI: Khi “Người khổng lồ” tỉnh giấc
Vụ kiện giữa NYT và OpenAI đã bóc tách bản chất thực sự của mối quan hệ giữa GenAI và báo chí, bác bỏ quan điểm cho rằng AI chỉ đơn thuần “học” như con người. NYT đã đưa ra rất nhiều bằng chứng cho thấy chatbot của OpenAI có thể tái tạo gần như nguyên văn các bài báo của NYT, điều này có nghĩa, sản phẩm đầu ra chắc chắn bao hàm yếu tố xâm phạm quyền tác giả. Cáo buộc trọng tâm của NYT xoay quanh hiện tượng “ghi nhớ” (memorization) hay còn gọi là “regurgitation”. Các bằng chứng kỹ thuật cho thấy các mô hình như GPT-4 không chỉ trừu tượng hóa thông tin mà trong nhiều trường hợp, chúng lưu trữ một bản sao nén của dữ liệu gốc. Khi người dùng đưa ra các câu lệnh (prompt) cụ thể, AI có thể tạo ra các đoạn văn bản dài gần như nguyên văn từ các bài báo của NYT, bao gồm cả những bài phân tích chuyên sâu nằm sau tường phí (paywall). Về mặt pháp lý, đây là hành vi xâm phạm quyền sao chép (reproduction right), không thể được bao biện dưới danh nghĩa “sử dụng hợp lý” (fair use) hay “sử dụng phi biểu đạt” (non-expressive use).
Nguy hiểm hơn cả hành vi sao chép là sự thay thế thị trường (market substitution) được xem là yếu tố thứ tư và quan trọng nhất trong phân tích fair use theo pháp luật Mỹ. ChatGPT và các công cụ tìm kiếm tích hợp AI đang dần trở thành những “tờ báo không tòa soạn”. Chúng cung cấp cho người dùng các bản tóm tắt tin tức chính xác, tổng hợp từ nhiều nguồn uy tín như NYT, CNN hay Reuters mà không dẫn người đọc quay trở lại trang gốc. Khi độc giả có thể nắm bắt toàn bộ thông tin chỉ qua một đoạn hội thoại với AI, động lực để họ truy cập vào trang web báo chí, xem quảng cáo hay trả phí thuê bao sẽ biến mất. Điều này đánh trực diện vào mô hình kinh doanh cốt lõi của báo chí, biến AI từ một công cụ hỗ trợ thành một đối thủ cạnh tranh trực tiếp, sử dụng chính tài nguyên của báo chí để triệt tiêu báo chí.
Đã đến lúc các nhà làm chính sách cần chuyển từ tư duy “mở để phát triển” sang tư duy “nuôi dưỡng nguồn dữ liệu”. Bảo vệ bản quyền báo chí không phải là hành động kìm hãm AI, mà là điều kiện tiên quyết để đảm bảo AI có nguồn dữ liệu chất lượng cao để tiếp tục “học” trong tương lai. Nếu báo chí suy yếu và sụp đổ vì thiếu nguồn thu, AI cũng sẽ đối mặt với tình trạng “suy thoái mô hình” (Model Collapse) khi chỉ còn lại dữ liệu rác để huấn luyện.
Trước những cáo buộc này, các công ty AI thường viện dẫn luận điểm “công nghệ vị nhân sinh”, cho rằng việc huấn luyện trên toàn bộ dữ liệu Internet là cần thiết để phát triển AI phục vụ lợi ích chung của nhân loại. Tuy nhiên, lập luận này chứa đựng một sự ngụy biện về mặt kinh tế học. Lợi nhuận từ các mô hình AI thuộc về các tập đoàn tư nhân như OpenAI hay Microsoft, vốn được định giá hàng ngàn tỉ đô la Mỹ, chứ không phải là tài sản công cộng. Việc buộc ngành báo chí, vốn đang chật vật với bài toán doanh thu trong kỷ nguyên số phải “tài trợ” miễn phí nguồn nguyên liệu đầu vào cho các tập đoàn công nghệ siêu giàu là một sự bất bình đẳng phi lý. Nó tạo ra tình trạng “kẻ đi nhờ xe miễn phí” (free rider), nơi lợi ích tập trung vào nhóm công nghệ còn chi phí ngoại tác (externalities) được đẩy sang cho nhóm sáng tạo nội dung.
Nhìn từ vụ kiện của NYT, Việt Nam có thể thấy một tấm gương phản chiếu rõ nét. Nếu một tờ báo có vị thế, tiềm lực tài chính và đội ngũ pháp lý hùng hậu như NYT còn phải chật vật để bảo vệ quyền lợi của mình trước làn sóng AI, thì các cơ quan báo chí Việt Nam sẽ ở vào thế “lép vế” hoàn toàn nếu khung pháp lý trong nước không đứng về phía họ ngay từ đầu. Sự im lặng hoặc các quy định lỏng lẻo sẽ không chỉ khiến báo chí mất đi doanh thu mà còn mất đi cả vị thế đàm phán trong tương lai.
“Dữ liệu công khai” - khe hở pháp lý hay lỗ hổng chết người?
Trở lại với định hướng lập pháp tại Việt Nam, quy định “thông tin đã được công bố hợp pháp, công khai và công chúng được phép tiếp cận thì được sử dụng với mục đích huấn luyện AI miễn là việc sử dụng không được gây ảnh hưởng bất hợp lý đến quyền và lợi ích hợp pháp của tác giả, chủ sở hữu quyền SHTT” đang bộc lộ những ngộ nhận nghiêm trọng về các khái niệm cơ bản của SHTT. Cần phân biệt rạch ròi giữa “công khai” (publicly available) và “thuộc về công chúng” (public domain). Một cuốn sách được bày bán công khai trên kệ sách, hay một bài báo được đăng tải công khai trên trang web, không đồng nghĩa với việc tác giả đã từ bỏ quyền kiểm soát đối với tác phẩm đó. Quyền tác giả bao gồm độc quyền cho phép hoặc cấm sao chép. Việc quy định cho phép AI sử dụng mọi dữ liệu công khai mà không cần xin phép đã vô tình tước bỏ “quyền cấp phép” (licensing right) được xem là quyền năng quan trọng nhất để tạo ra doanh thu của chủ sở hữu trong môi trường số.
Hơn nữa, trong bối cảnh thực thi bản quyền tại Việt Nam còn nhiều hạn chế, quy định này có nguy cơ hợp pháp hóa quy trình “rửa dữ liệu” (data laundering). Thực trạng vi phạm bản quyền trên không gian mạng Việt Nam vẫn diễn biến phức tạp, với sự tồn tại của hàng loạt trang web tổng hợp tin tức trái phép, trang phim lậu hay kho sách điện tử không bản quyền. Dữ liệu trên các trang này là “công khai” và “công chúng tiếp cận được”. Nếu luật pháp cho phép sử dụng dữ liệu công khai làm đầu vào mà không định nghĩa chặt chẽ thế nào là nguồn “hợp pháp” hay “tiếp cận hợp pháp” (lawful access) như mô hình của Liên minh châu Âu, thì các hệ thống AI sẽ đường hoàng thu thập dữ liệu từ các “kho lậu” này. Khi đó, báo chí chính thống sẽ chịu thiệt hại kép: vừa bị các trang web lậu đánh cắp nội dung, vừa bị các hệ thống AI sử dụng chính dữ liệu bị đánh cắp đó để huấn luyện và quay lại cạnh tranh thị phần độc giả.
Tác động kinh tế của chính sách “đầu vào mở” này đối với báo chí Việt Nam được dự báo là vô cùng nặng nề, vẽ nên viễn cảnh “vườn không nhà trống”. Xu hướng “Zero-click search” (tìm kiếm không cần nhấp chuột) do AI tạo ra sẽ khiến lượng truy cập vào các báo điện tử sụt giảm nghiêm trọng. Theo các dự báo quốc tế, traffic từ các công cụ tìm kiếm có thể giảm từ 20-40% khi AI được tích hợp sâu. Tại Việt Nam, nơi doanh thu quảng cáo vẫn là huyết mạch chính của hầu hết các tòa soạn, sự sụt giảm traffic đồng nghĩa với việc dòng tiền sẽ bốc hơi nhanh chóng.
Hệ quả nhãn tiền của sự suy giảm doanh thu là nguy cơ suy giảm chất lượng báo chí. Để sinh tồn trong bối cảnh nguồn thu bị AI hút cạn, các tòa soạn có thể buộc phải cắt giảm chi phí sản xuất, thu hẹp quy mô phóng viên và chạy theo các tin tức giật gân, rẻ tiền để câu view, thay vì đầu tư cho các bài phóng sự điều tra hay phân tích chuyên sâu - những loại hình vốn tốn kém nhưng lại dễ bị AI tóm tắt nhất. Vòng xoáy đi xuống này không chỉ ảnh hưởng đến kinh tế báo chí mà còn làm nghèo nàn đi không gian thông tin và tri thức của xã hội Việt Nam.
Đâu là kịch bản tối ưu để hóa giải bài toán định giá dữ liệu trong kỷ nguyên AI?
Thay vì thụ động chờ đợi các quy định pháp lý, báo chí Việt Nam cần chủ động xây dựng các kịch bản ứng phó. Dựa trên kinh nghiệm quốc tế, có ba kịch bản chiến lược chính mà các tòa soạn có thể cân nhắc, tuy nhiên tính khả thi của mỗi kịch bản lại phụ thuộc hoàn toàn vào “độ cứng” của khung pháp lý quốc gia.
Trước hết, kịch bản “Đóng cửa và Kiện tụng” theo mô hình của NYT đặt ra một tiền lệ về việc bảo vệ bản quyền nghiêm ngặt thông qua các rào cản kỹ thuật như tường phí (paywall) hay chặn thu thập dữ liệu. Đối với thực tế tại Việt Nam, đây là một thách thức lớn khi phần lớn các tòa soạn có quy mô nhỏ và vừa, việc đơn phương đóng cửa có thể dẫn đến rủi ro sụt giảm lưu lượng truy cập và đánh mất thị phần vào tay các đối thủ vẫn đang mở cửa dữ liệu. Chiến lược này chỉ thực sự phát huy sức mạnh khi có sự đồng thuận cao độ và liên kết chặt chẽ trong một liên minh báo chí đủ lớn, dưới sự điều phối của Hội Nhà báo, nhằm tạo ra một sức ép tập thể đủ mạnh buộc các công ty AI phải thương thảo.
Song song với việc phòng vệ, xu hướng “Hợp tác và Cấp phép” đang mở ra một triển vọng kinh tế mới đầy hứa hẹn. Với tính đặc thù và sự khan hiếm của dữ liệu tiếng Việt chất lượng cao, các cơ quan báo chí Việt Nam thực chất đang nắm giữ một loại tài nguyên chiến lược mà các LLM luôn khao khát. Dù vậy, bài toán định giá dữ liệu lại đối mặt với một điểm nghẽn pháp lý: nếu luật vẫn duy trì quan điểm cho phép khai thác miễn phí dữ liệu công khai, báo chí sẽ hoàn toàn mất đi quyền năng thương thảo. Sẽ không có doanh nghiệp công nghệ nào chi trả cho những gì họ có quyền lấy miễn phí, và điều này vô hình trung sẽ triệt tiêu cơ hội thương hóa mại dữ liệu, tức nguồn thu quan trọng nhất của báo chí trong kỷ nguyên số.
Ở một tầm nhìn mang tính kiến tạo hơn, việc xây dựng “Hạ tầng dữ liệu chung” thông qua một kho dữ liệu báo chí quốc gia được xem là hướng đi căn cơ cho Việt Nam. Thay vì để tài nguyên bị khai thác nhỏ lẻ và phân tán, việc tập hợp nguồn tin chính thống, sạch bản quyền vào một trung tâm lưu trữ chung sẽ tạo ra một thực thể có quy mô đủ lớn để đàm phán sòng phẳng với các đối tác quốc tế. Mô hình này không chỉ tối ưu hóa giá trị kinh tế thông qua cơ chế cấp phép tập thể, mà quan trọng hơn, nó đảm bảo chủ quyền số khi các mô hình AI sẽ được huấn luyện bằng những dữ liệu chuẩn xác về văn hóa, lịch sử và chính trị Việt Nam, thay vì hấp thụ những thông tin sai lệch hoặc trôi nổi trên không gian mạng.
Nhận xét gợi mở cho Việt Nam
Sự xuất hiện của GenAI đang định hình lại toàn bộ chuỗi giá trị của ngành công nghiệp nội dung. Việc luật của Việt Nam thông qua việc “miễn phí hóa” đầu vào dữ liệu với hy vọng thúc đẩy công nghệ, đó có thể là dấu chấm hết cho nỗ lực chuyển đổi số và tự chủ tài chính của ngành báo chí. Chúng ta đang đứng trước nguy cơ đổi nguồn tài nguyên quý giá - dữ liệu tri thức - để lấy những tiện ích AI miễn phí nhất thời.
Đã đến lúc các nhà làm chính sách cần chuyển từ tư duy “mở để phát triển” sang tư duy “nuôi dưỡng nguồn dữ liệu”. Bảo vệ bản quyền báo chí không phải là hành động kìm hãm AI, mà là điều kiện tiên quyết để đảm bảo AI có nguồn dữ liệu chất lượng cao để tiếp tục “học” trong tương lai. Nếu báo chí suy yếu và sụp đổ vì thiếu nguồn thu, AI cũng sẽ đối mặt với tình trạng “suy thoái mô hình” (Model Collapse) khi chỉ còn lại dữ liệu rác để huấn luyện. Sự hợp tác giữa báo chí và công nghệ là tất yếu, nhưng đó phải là sự hợp tác dựa trên nền tảng công bằng, tôn trọng quyền tài sản và chia sẻ lợi ích, chứ không phải là sự tước đoạt được hợp pháp hóa dưới danh nghĩa đổi mới sáng tạo.
(*) Khoa Luật, Đại học Kinh tế TPHCM (UEH)












