Ngoại lệ bản quyền dành cho khai thác văn bản và dữ liệu huấn luyện trí tuệ nhân tạo: Sự mơ hồ và mâu thuẫn vẫn còn đó

Bài viết này không nhằm hướng đến ủng hộ một bên nào trong cuộc chiến bản quyền liên quan đến TDM huấn luyện AI. Thay vào đó, bài viết thể hiện sự lo ngại về tính nhất quán, logic, hiệu quả và sự cẩn trọng khoa học pháp lý cần có của quy định 7.5 này.

Dự thảo Luật sửa đổi, bổ sung một số điều của Luật Sở hữu trí tuệ gần đây đã gây ra một làn sóng phản ứng mạnh mẽ trong giới sáng tạo nội dung liên quan đến một quy định mới về hoạt động khai thác dữ liệu văn bản (TDM) để huấn luyện các mô hình trí tuệ nhân tạo (AI). Bởi lẽ, khoản 5 điều 7 dự định được chỉnh sửa theo hướng cho phép các nhà phát triển AI có thể tiếp cận các dữ liệu có bản quyền để huấn luyện AI, miễn là dữ liệu đó đã được công bố hợp pháp và công chúng có quyền tiếp cận. Quy định cũng kèm theo điều kiện việc sử dụng không làm ảnh hưởng bất hợp lý đến quyền và lợi ích hợp pháp của chủ sở hữu quyền.

Các luật gia lo ngại rằng tác phẩm của tác giả sẽ bị khai thác đến cạn kiệt bởi các công ty công nghệ AI để tạo ra các mô hình AI thu phí, các sản phẩm đầu ra mang bóng dáng đứa con tinh thần của họ sẽ được khai thác thương mại tràn lan mà bản thân họ lại không khống chế được quy trình này cũng như không được hưởng thù lao thỏa đáng.

Nhưng bài viết này bàn về nội dung khác: tính nhất quán, logic, hiệu quả và sự cẩn trọng khoa học pháp lý cần có của quy định 7.5 này.

Vấn đề TDM: cũ người mới ta

Thật đáng ngạc nhiên khi ở Việt Nam hiện nay, trong khi các chủ sở hữu quyền lên tiếng mạnh mẽ để bảo vệ quyền lợi của mình thì các công ty AI - một bên trong mối quan hệ bản quyền - lại vắng bóng. Có lẽ, chúng ta chưa có các big tech công nghệ đủ mạnh để phát biểu quan điểm trên diễn đàn hoặc do vắng bóng các hiệp hội đại diện quyền cho họ như phía “đối thủ” chăng?

Trên thế giới, sự tranh cãi bất tận về TDM cho huấn luyện AI giữa chủ sở hữu quyền và công ty công nghệ đã diễn ra từ hai mươi năm nay, bắt đầu từ thời Google triển khai dự án Google Search và hợp tác với các thư viện của một số đại học lớn ở Mỹ để cho ra đời hệ thống số hóa sách liên thư viện khổng lồ. Sự việc sau đó được khép lại bằng hai bản án đình đám chỉ có thể được phán quyết sau cả chục năm khởi kiện. Phần thắng nghiêng về phía công ty công nghệ.

Tuy nhiên, từ giữa những năm 2010 trở lại đây, huấn luyện AI không chỉ dừng lại các mô hình AI giản đơn hoạt động chỉ nhằm mục đích tìm kiếm như Google Search, mà là các mô hình AI tạo sinh có khả năng sản sinh đầu ra mang tính sáng tạo tương tự như con người. Sóng gió lại xuất hiện. Bởi lẽ giờ đây AI không chỉ đơn thuần hỗ trợ con người mà còn có khả năng sáng tạo độc lập, từ đó có thể tranh thị phần với các tác giả, nơi mà thị trường không đòi hỏi tính sáng tạo cao cho các tác phẩm (ví dụ thị trường minh họa giản đơn). Các tác giả chính thức bị cạnh tranh việc làm bởi chính AI khi hiện nay hàng loạt công ty lớn bắt đầu sa thải nhân viên bởi nhiều công việc đã được thay thế bởi AI. Người ta cũng chuyển sang sử dụng AI để tạo ra các tác phẩm phục vụ cho công việc hay học tập thay gì mua bản quyền từ tác giả con người. Nhiều vụ kiện đình đám trong đó chủ sở hữu bản quyền chống lại các công ty AI ở Mỹ và Liên minh châu ÂU (EU) cũng đã xuất hiện.

Ở Mỹ, pháp luật bản quyền được xây dựng dựa trên học thuyết vị lợi xã hội (utilitarianism), cho rằng bảo hộ độc quyền cho tác giả chỉ nhằm tạo động lực sáng tạo để thúc đẩy phát triển các lợi ích chung cho xã hội. Do đó, các công ty AI ở Mỹ dựa vào điều khoản bản quyền trong Hiến pháp lập luận rằng, nếu pháp luật bản quyền có nhiệm vụ thúc đẩy sự phát triển của khoa học công nghệ thì việc bắt họ gánh chịu trách nhiệm bản quyền cho hoạt động TDM là một cú đấm vào tương lai của AI, nhiệm vụ của Luật Bản quyền không hoàn thành. Dù vậy, Báo cáo gần đây được công bố bởi Văn phòng Bản quyền Mỹ đề xuất áp dụng mô hình cấp phép tập thể cho hoạt động TDM huấn luyện AI, tương tự như lĩnh vực âm nhạc.

Ở EU, Luật Bản quyền theo truyền thống droit d’auteur, thường được diễn giải là mô hình pháp luật đặt mục tiêu bảo vệ lợi ích tác giả vào trung tâm của hệ thống quyền tác giả, đối lập với chủ nghĩa vị lợi Mỹ. Dù vậy, Chỉ thị DSM 2019 của EU vẫn công nhận nguyên tắc bảo hộ bản quyền không thể cản trở sự phát triển của khoa học kỹ thuật, cụ thể là sự phát triển của công nghệ AI. Do đó, Chỉ thị này vẫn cho phép các nhà phát triển AI được sử dụng dữ liệu và văn bản để huấn luyện AI nhưng có điều kiện. Chỉ thị chia hai loại AI và tương ứng là cơ chế ngoại lệ cũng được xây dựng khác biệt. Đối với các mô hình AI nhằm mục đích nghiên cứu khoa học và phi thương mại, nhà phát triển có quyền sử dụng dữ liệu mà họ có quyền tiếp cận hợp pháp để huấn luyện AI mà không cần xin phép và trả phí. Đối với mô hình AI mang tính thương mại, các nhà phát triển cũng có quyền tiếp cận dữ liệu huấn luyện tương tự nhưng cho phép chủ sở hữu quyền có quyền lựa chọn cấm công ty AI sử dụng tác phẩm của họ nhằm mục đích huấn luyện AI (cơ chế opt-out).

Như vậy, dù hai trường phái luật khác nhau, cả Mỹ lẫn EU điều có cách tiếp cận mang tính nhượng bộ trong lĩnh vực TDM cho huấn luyện AI: cho phép công ty công nghệ tiếp cận dữ liệu để huấn luyện AI nhưng kèm theo các điều kiện hạn chế nhằm đảm bảo lợi ích của chủ thể quyền.

Điều 7.5 trong Dự thảo sửa đổi Luật SHTT Việt Nam: quy định mơ hồ và mâu thuẫn

Trong Dự thảo số 7 ngày 2-12-2025 vừa qua, quy định về ngoại lệ TDM đã có sự chỉnh sửa hợp lý hơn về mặt kỹ thuật so với phiên bản trước đó. Tuy nhiên, sự mơ hồ và mâu thuẫn của quy định vẫn còn đó.

Thứ nhất, dự thảo quy định công ty công nghệ có quyền sử dụng tác phẩm để huấn luyện AI nhưng tác phẩm đó phải “được công bố hợp pháp và công chúng được phép tiếp cận”. Hiểu như thế nào về cụm từ “công chúng được phép tiếp cận”? Đó là dữ liệu thuộc miền công cộng, ví dụ tác phẩm đã hết thời hạn bảo hộ hoặc tác giả đã từ bỏ độc quyền, cho phép công chúng tự do tiếp cận; hay tác phẩm được tác giả khai thác thương mại không giới hạn trên thị trường, miễn trả phí là sẽ được quyền tiếp cận? Hơn nữa, “được phép tiếp cận” được hiểu như thế nào? Nếu tác giả upload một tác phẩm lên Internet nhưng chỉ cho phép công chúng đọc trực tuyến nhưng không được tải về lẫn sao chép thì có thể coi là “được phép tiếp cận” không?

Và trường hợp nào thì cũng phát sinh một vấn đề lớn: dự thảo điều luật đặt điều kiện là tác phẩm phải trong tình trạng “công chúng” được phép tiếp cận thì nhà phát triển AI mới có thể sử dụng. Vậy, nếu nhà phát triển AI có quyền tiếp cận nguồn dữ liệu mà tác giả kiểm soát chỉ để cho phép một số chủ thể có giới hạn, phù hợp điều kiện họ đặt ra được phép sử dụng mà không phải là công chúng nói chung thì liệu nhà phát triển AI có quyền được sử dụng để huấn luyện các mô hình của mình? Nếu như vậy, rõ ràng phạm vi được khai thác dữ liệu để huấn luyện AI sẽ bị thu hẹp rất nhiều.

Như vậy, mặc dù các chủ sở hữu bản quyền lo lắng về khả năng điều 7.5 trong dự thảo tước đi quyền kiểm soát tác phẩm nhưng có lẽ các nhà phát triển AI cũng lo lắng không kém. Bởi sự mơ hồ của quy định này có thể giới hạn phạm vi khai thác dữ liệu rất nhiều và đặt họ trước nguy cơ không chắc chắn, vì bất cứ khi nào họ cũng có thể bị kiện bởi chủ sở hữu bản quyền.

Ngược lại, việc không phân loại AI thành AI có mục đích nghiên cứu khoa học phi thương mại hay AI thương mại khiến cho quy định về ngoại lệ TDM cũng vấp phải nhiều thách thức. Việc “gom chung một rọ” có nguy cơ tác giả phải “hy sinh” lợi ích của mình không phải vì lợi ích cộng đồng như các ngoại lệ truyền thống mà vì lợi nhuận khổng lồ của các công ty công nghệ lớn, đặc biệt là các công ty công nghệ nước ngoài. Ngoại lệ bản quyền không thể được xây dựng để tạo điều kiện cho các công ty công nghệ thực hiện hành vi cạnh tranh với chính bản thân tác giả mà tác phẩm của họ được khai thác miễn phí từ chính đối thủ của mình.

Một điểm đáng chú ý trong Dự thảo là điều 7.5 không chỉ dành ngoại lệ TDM nhằm huấn luyện AI mà còn áp dụng cho hoạt động nghiên cứu khoa học và thử nghiệm. Đây lẽ ra là một bước tiến đáng khen ngợi trong tư duy lập pháp của ta, khi thể hiện rõ quan điểm Luật Bản quyền là nhằm thúc đẩy nghiên cứu khoa học nói chung, tạo sân chơi bình đẳng cho cá nhân nghiên cứu khoa học và các “big tech” về công nghệ. Đây là sự khác biệt lớn đáng được khuyến khích của Việt Nam so với cách tiếp cận của Mỹ và EU. Tuy nhiên, mục tiêu này trở nên thiếu triển vọng khi điều 25 quy định về các trường hợp ngoại lệ dành cho nghiên cứu khoa học vẫn còn đó. Theo đó, ngoại lệ này vốn dĩ được thiết kế rất hẹp. Cụ thể, nhà nghiên cứu chỉ được chép tay một bản duy nhất hoặc nếu dùng thiết bị sao chép thì chỉ được sao chép tối đa 10% dung lượng một tác phẩm để phục vụ mục đích nghiên cứu khoa học phi thương mại. Vậy, nếu điều 7.5 được thông qua thì mặc nhiên sẽ mâu thuẫn với điều 25 hiện hành bởi chúng trái ngược nhau về mức độ, phạm vi, khối lượng được hưởng ngoại lệ dành cho hoạt động nghiên cứu khoa học.

Có nên vội vàng thông qua quy định mới về TDM?

Dự thảo được triển khai từ tháng 8-2025 nhưng ngoại lệ về TDM dành cho huấn luyện AI chỉ mới được đưa vào Dự thảo vào tháng 10-2025. Có thể vì thời gian dành cho nghiên cứu để thiết kế một quy định phức tạp như TDM là quá ngắn nên Ban soạn thảo chưa hình dung hết những ngóc ngách lắt léo, những tình huống cũng như những hệ lụy có thể phát sinh trên thực tế.

Các bài học kinh nghiệm từ EU cũng như Mỹ trong lĩnh vực này có lẽ cũng chưa được nghiên cứu cặn kẽ. Thật khó để mong đợi cả một cơ chế TDM dành cho AI với khả năng để lại hệ lụy lâu dài cho cả hệ thống pháp luật quyền tác giả lại chỉ có thể gói gọn trong một điều khoản duy nhất. Mặc dù, điều khoản dự thảo có đề cập đến việc Chính phủ có thể ban hành nghị định hướng dẫn chi tiết thi hành về TDM sau này. Tuy nhiên, liệu một lĩnh vực tinh vi như TDM và AI, ảnh hưởng đến cơ chế bản quyền hình thành lâu đời trong lịch sử, có nên hoàn toàn phụ thuộc vào một văn bản dưới luật mà thiếu sự dẫn đường rõ ràng, nhất quán từ luật như vậy?

(*) Trường Đại học Kinh tế - Luật ĐHQG TPHCM

Lâm Nghi (*)

Nguồn Saigon Times: https://thesaigontimes.vn/ngoai-le-ban-quyen-danh-cho-khai-thac-van-ban-va-du-lieu-huan-luyen-tri-tue-nhan-tao-su-mo-ho-va-mau-thuan-van-con-do/