Điều 7.5 nhìn từ góc độ tác giả văn học

Điều 7.5 của dự thảo sửa đổi Luật Sở hữu trí tuệ thoạt nhìn có vẻ nhẹ nhàng, chỉ như một kỹ thuật lập pháp để gỡ nút thắt cho ngành AI Việt Nam. Nhưng nếu soi kỹ từ góc độ tác giả văn học, điều khoản này gần như đang hợp pháp hóa việc biến lao động sáng tạo - thứ chất xám đắt giá nhất, định vị con người - thành... nguyên liệu miễn phí cho các cỗ máy AI.

Trong khi Việt Nam đang tranh luận về việc sửa Luật Sở hữu trí tuệ (SHTT), thế giới đã bước vào giai đoạn đụng độ trực diện giữa các tập đoàn AI và giới sáng tạo. Hàng loạt vụ kiện ở Mỹ, châu Âu, Nhật Bản xoay quanh một trục duy nhất: các hệ thống AI đã dùng tác phẩm có bản quyền để huấn luyện mà không xin phép, không trả phí, nhưng lại xây dựng mô hình kinh doanh hàng tỉ đô la trên nền dữ liệu đó. Ở nhiều nơi, tòa án bắt đầu thừa nhận: việc “training” không hề vô hại - nó là một dạng khai thác thương mại mới, một thị trường mới cần quy tắc riêng, không thể mặc nhiên xem là “miễn phí”.

Trong bối cảnh đó, điều 7.5 - với cụm từ cho phép “các công ty AI sử dụng nguồn dữ liệu đã công bố để huấn luyện mô hình mà không cần trả tiền cho chủ sở hữu” nếu đáp ứng ba điều kiện - đặt tác giả Việt Nam vào một thế bất lợi rõ ràng. Nếu được thông qua mà không có cơ chế bảo vệ kèm theo, điều khoản này rất dễ trở thành “giấy phép toàn phần” cho bất kỳ mô hình AI nào gom và “chế biến” kho tác phẩm văn học Việt Nam vào trong “kho” dữ liệu của mình.

Nếu được thông qua mà không có cơ chế bảo vệ kèm theo, điều khoản này rất dễ trở thành “giấy phép toàn phần” cho bất kỳ mô hình AI nào gom và “chế biến” kho tác phẩm văn học Việt Nam vào trong “kho” dữ liệu của mình.

Về mặt kỹ thuật, việc huấn luyện mô hình ngôn ngữ lớn không chỉ là “đọc lướt”. Nó bắt đầu bằng khâu quét và sao chép hàng loạt từ sách in, ebook, báo chí đến blog, diễn đàn… Tất cả được đưa vào kho dữ liệu, xử lý, cắt nhỏ thành token, embedding, trở thành một phần “bộ nhớ dài hạn” của mô hình.

Từ đó, AI học cách viết câu, kể chuyện, xây dựng nhân vật, phát triển cốt truyện - chính là những kỹ năng mà một nhà văn phải trả giá bằng cả đời học và viết. Nói thẳng ra để có một mô hình “viết như người”, nhà phát triển phải copy cả một nền văn chương đưa vào máy.

Đây không phải là hành vi trung lập. Bởi các mô hình ấy không nằm trên kệ phòng thí nghiệm cho vui. Chúng được đóng gói thành sản phẩm thương mại: API trả phí, gói thuê bao, bộ công cụ viết văn, biên tập, dịch thuật, nội dung marketing, kịch bản phim… và mang lại doanh thu khổng lồ cho những người nắm giữ cỗ máy AI đó. Trong chuỗi giá trị ấy, tác phẩm của nhà văn trở thành mỏ dữ liệu đầu vào, nhưng người đào mỏ và bán lại giá trị đó cho thị trường không phải là tác giả, mà là chủ sở hữu mô hình AI.

Điều kiện (1) trong điều 7.5 - “không sao chép, phân phối, truyền đạt, công bố hay làm tác phẩm phái sinh” - nghe qua có vẻ chặt chẽ, nhưng lại bỏ qua bản chất của hoạt động huấn luyện. Muốn AI “học”, nó phải sao chép: dữ liệu phải đi vào máy, nằm ở đâu đó trong hệ thống lưu trữ và xử lý. Nếu luật ghi rằng “được huấn luyện miễn là không sao chép”, tức là đang định nghĩa lại từ “sao chép” theo hướng có lợi tối đa cho AI, tách việc huấn luyện ra khỏi phạm trù xâm phạm bản quyền truyền thống.

Ở khía cạnh “tác phẩm phái sinh”, thực tế cho thấy phần lớn đầu ra của AI sẽ được thiết kế để “giống nhưng không giống hệt” - tránh trích nguyên văn, né ngưỡng “tương đồng đáng kể” - trong khi vẫn bám sát phong cách, nhịp điệu, cấu trúc câu chuyện mà nhà văn đã xây dựng. Điều đó đặt giới sáng tạo vào một vùng xám: chất liệu bị khai thác triệt để, còn quyền bảo vệ thì bị đẩy sang bên.

Điều kiện (2) - “không khai thác thương mại văn bản, dữ liệu gốc” - là một câu an ủi mang tính hình thức. Bởi các công ty AI ngày nay không cần bán lại ebook hay file PDF của tác phẩm gốc. Họ chỉ cần dùng chúng để tạo ra một sản phẩm khác: mô hình AI. Và chính mô hình ấy mới là thứ được đem ra bán với giá cao, ký hợp đồng tích hợp, cấp phép sử dụng cho doanh nghiệp. Ai cũng hiểu rằng giá trị thương mại thực sự nằm ở mô hình đã được huấn luyện, chứ không phải file chữ thô. Cấm “khai thác thương mại văn bản gốc” nhưng cho phép tự do dùng văn bản đó để tạo ra mô hình thương mại chính là cách hợp thức hóa việc lấy miễn phí cái lõi giá trị nhưng chỉ tránh động vào “vỏ” - thứ mà thị trường không còn cần mua nhiều như trước.

Cấm “khai thác thương mại văn bản gốc” nhưng cho phép tự do dùng văn bản đó để tạo ra mô hình thương mại chính là cách hợp thức hóa việc lấy miễn phí cái lõi giá trị nhưng chỉ tránh động vào “vỏ” - thứ mà thị trường không còn cần mua nhiều như trước.

Điều kiện (3) - “không gây thiệt hại đến lợi ích hợp pháp của tác giả” - về lý thuyết là một phanh an toàn, nhưng trên thực tế gần như không thể vận hành đối với từng cá nhân tác giả. Thiệt hại của nhà văn không chỉ nằm ở vài cuốn sách bán ít đi. Nó nằm ở làn sóng chuyển dịch thị trường, đó là độc giả trẻ sẽ dần “quen” với việc nhờ AI tóm tắt truyện, viết truyện mới theo phong cách nào đó, dựng dàn ý tiểu thuyết… rồi rất có thể không còn mua sách gốc, không tìm đến tác giả nữa.

Thiệt hại còn nằm ở thị trường cấp phép dữ liệu để huấn luyện AI - một thị trường mới đang hình thành trên thế giới - mà tác giả Việt Nam có nguy cơ mất trắng ngay từ đầu nếu luật mặc định cho phép dùng miễn phí. Nhưng làm sao cá nhân một nhà văn có thể cầm số liệu để chứng minh rằng “thu nhập tôi giảm X% vì mô hình Y đã huấn luyện trên sách của tôi”? Mọi dữ liệu về huấn luyện, người dùng, hành vi đọc - viết đều nằm trong tay các tập đoàn vận hành AI. Như vậy, nếu được thông qua, điều 7.5 vừa mở cửa cho AI dùng dữ liệu, vừa đặt gánh nặng chứng minh thiệt hại lên vai người yếu thế nhất trong chuỗi - tác giả.

Từ điểm nhìn của tác giả văn học, thiệt hại từ điều 7.5 không chỉ là chuyện tiền nhuận bút năm nay ít đi hay nhiều hơn. Nó là câu chuyện định nghĩa lại giá trị của “chất xám thật” trong xã hội. Tác phẩm văn học là nơi kết tinh trải nghiệm, lịch sử, ngôn ngữ, ký ức tập thể - là thứ giúp con người biết mình là ai, thuộc về đâu. Khi toàn bộ khối chất xám đó được đổ vào mô hình như nguyên liệu miễn phí, còn mô hình thì được quyền tuôn ra vô số văn bản “na ná”, rẻ, nhanh, vô tận, chúng ta đang chấp nhận một trật tự mới: trật tự của “chất xám nhân tạo rẻ tiền” lấn át “chất xám có giá trị”.

Trong trật tự ấy, không chỉ ngành xuất bản hay giới nhà văn bị tổn thương. Toàn bộ nền tảng tri thức của công nghiệp, thương mại, nông nghiệp, công nghệ dần dần dựa trên các công cụ được huấn luyện từ dữ liệu “không trả phí”, “không xin phép”, “không chia sẻ lợi ích”. Khi luật coi đó là điều bình thường, xã hội sẽ dần quen với một logic nguy hiểm: thứ gì đã xuất hiện trên mạng thì mặc nhiên là tài nguyên để khai thác, không cần nghĩ tới người tạo ra nó.

Đến một lúc nào đó, việc “đảo trắng thay đen” sẽ diễn ra trong âm thầm: kẻ sở hữu hạ tầng, mô hình, vốn và marketing được gọi là “người sáng tạo giá trị mới”, còn những người viết, người nghiên cứu, người làm nội dung - những người thực sự tạo ra chất liệu - bị đẩy vào vai phụ, dễ thay thế.

Một hệ quả nghiêm trọng khác thường bị bỏ qua trong tranh luận là sự mất cân bằng giữa AI nước ngoài và AI trong nước. Điều 7.5, nếu không có rào chắn, sẽ trở thành tấm vé vàng cho các nền tảng AI toàn cầu tiến sâu hơn vào kho dữ liệu tiếng Việt. Với năng lực hạ tầng khổng lồ, mô hình tiên phong, đội ngũ kỹ sư hùng hậu và ngân sách marketing vô biên, họ là những người gom dữ liệu nhanh nhất, nhiều nhất, sâu nhất.

Nếu chúng ta coi “dữ liệu là tiền”, thì đây là bài toán: dòng tiền vô hình đó sẽ không chảy vào Việt Nam. Tác phẩm của nhà văn Việt, báo chí Việt, nội dung học thuật Việt… trở thành nguồn tài nguyên để nâng cấp mô hình quốc tế, giúp họ bán dịch vụ AI tốt hơn cho cả thế giới - bao gồm cả doanh nghiệp Việt.

Ngược lại, các công cụ AI trong nước - với hạ tầng hạn chế hơn, vốn mỏng hơn, nhân lực ít hơn - dù cũng “được phép” dùng dữ liệu đã công bố, nhưng miếng bánh sẽ nhỏ hơn rất nhiều. Họ khó cạnh tranh về tốc độ, về chất lượng mô hình, về độ phủ thị trường. Thành ra, một điều khoản được trình bày dưới danh nghĩa “tạo điều kiện cho AI Việt Nam không bị tụt hậu” có thể vô tình làm sâu rộng thêm khoảng cách giữa AI nội và AI ngoại: chúng ta cung cấp dữ liệu miễn phí, còn giá trị kinh tế lớn nhất từ kho dữ liệu ấy lại được hiện thực hóa trên server đặt ở nước ngoài, trong báo cáo tài chính của tập đoàn ngoại.

Nhìn tổng thể, điều 7.5 không phải là một chi tiết kỹ thuật vô thưởng vô phạt trong Dự thảo Luật SHTT. Đối với tác giả văn học, đây là điểm đứt gãy: hoặc pháp luật thừa nhận rằng việc dùng tác phẩm để huấn luyện AI là một dạng khai thác mới, cần cơ chế trả tiền, cơ chế thương lượng, cơ chế bảo vệ; hoặc chúng ta chấp nhận biến toàn bộ nền sáng tạo thành “mỏ dữ liệu mở”, cho bất kỳ cỗ máy nào đến đào, miễn là đừng chép y nguyên đoạn văn trả lại người dùng.

Nếu lựa chọn thứ hai, cái giá không chỉ là vài vụ kiện trong tương lai. Cái giá là việc chúng ta tự tay hạ thấp giá trị chất xám của chính mình, tự tay cho phép dòng “tiền dữ liệu” chảy ra khỏi biên giới mà không đòi hỏi phần chia công bằng cho quốc gia, cho người viết, người làm nội dung, người xây nên ký ức và tiếng nói của xã hội này.

Điều 7.5 của dự thảo sửa đổi Luật Sở hữu trí tuệ quy định cho phép các công ty AI sử dụng “các nguồn dữ liệu đã được công bố” để huấn luyện mô hình mà không cần trả tiền cho chủ sở hữu, miễn là họ (1) không sao chép, phân phối, truyền đạt, công bố hay làm tác phẩm phái sinh; (2) không khai thác thương mại văn bản, dữ liệu gốc; và (3) không gây thiệt hại đến lợi ích hợp pháp của tác giả.

(*) Chuyên gia thương mại hóa tài sản trí tuệ

Nguyễn Ngọc Trâm (*)

Nguồn Saigon Times: https://thesaigontimes.vn/dieu-7-5-nhin-tu-goc-do-tac-gia-van-hoc/