'Nhân tố phản diện' trong xuất bản

11/7/2024 Gốc

Trong suốt lịch sử của mình, ngành xuất bản luôn cần 'một con quái vật' đại diện cho những diễn biến mới đe dọa đến cách làm việc truyền thống.

“Tôi bị ám ảnh bởi từ scraping (thu thập dữ liệu web - pv). Nghe có vẻ khá bạo lực”, tác giả RO Kwon cho biết trên Esquire. Tháng 9/2023, Kwon cảm thấy bị xâm phạm khi biết rằng cuốn tiểu thuyết đầu tay của mình, The Incendiaries, là một phần của tập dữ liệu Books3 được sử dụng để đào tạo một số mô hình AI tạo sinh vào thời điểm đó, cô cảm thấy bị xâm phạm.

Cô và các tác giả khác đã lên mạng xã hội trút giận, thể hiện sự tổn thương và thất vọng lên các công ty công nghệ đã bí mật “lấy cắp” dữ liệu từ Internet mà không có sự đồng ý hoặc bồi thường cho người sáng tạo.

Tiểu thuyết của Kwon và những tác phẩm khác đã được đưa vào các mô hình học máy, dạy chúng cách tạo nội dung “mới” dựa trên các mẫu trong văn bản được đưa vào. (Chính “việc tạo ra” này khiến AI tạo sinh khác biệt với các loại mô hình khác chỉ có thể xác định các mẫu hoặc thực hiện các phép tính). Những năm làm việc cho những cuốn sách đó cộng lại: 10 năm cho một tiểu thuyết, 20 năm cho một hồi ký, nhân với gần 200.000 cuốn sách có trong tập dữ liệu.

“Đây có khả năng là vụ lừa đảo lớn nhất trong lịch sử sáng tạo”, Douglas Preston, một tác giả bán chạy và là một trong những nguyên đơn trong vụ kiện tập thể được đệ trình sau vụ phẫn nộ, cho biết. Vào tháng 9/2023, 17 tác giả đã hợp tác với Authors Guild, tổ chức chuyên nghiệp lâu đời nhất và lớn nhất dành cho các nhà văn Mỹ, để đệ đơn kiện cáo buộc rằng Microsoft và OpenAI, đơn vị tạo ra ChatGPT, đã vi phạm luật bản quyền bằng cách đưa sách vào các mô hình AI tạo ra của họ.

Về phần mình, OpenAI và Microsoft phủ nhận cáo buộc rằng họ đã vi phạm bản quyền. Các công ty công nghệ tuyên bố việc đào tạo các mô hình của họ về nội dung có bản quyền tương đương với việc một người đọc sách để cải thiện khả năng viết của chính họ.

Tương lai của sách - và có lẽ là của các ngành công nghiệp sáng tạo nói chung - có thể phụ thuộc vào định nghĩa của một thẩm phán về "sử dụng hợp lý".

Nhưng một hệ sinh thái xung quanh AI tạo sinh dựa trên văn bản đã phát triển rất lâu trước khi nội dung của các tập dữ liệu chính được tiết lộ. Các mô hình ngôn ngữ lớn (LLM) đã được phát triển từ năm 2017 và GPT-3 của OpenAI, mô hình giới thiệu AI tạo sinh vào dòng chính, đã ra mắt thế giới vào năm 2020. Hiện tại, các công cụ, quy trình làm việc, công ty, tiêu chuẩn ngành và tất nhiên là cả gian lận đang hoạt động hết công suất, đã thay đổi cách viết, xuất bản và đọc một số cuốn sách.

Công nghệ này đã phù hợp với xu hướng gần đây của ngành xuất bản hướng tới hiệu quả, hợp nhất và dịch vụ cho người đọc - dường như tránh xa tính bền vững đối với lao động của con người. Nhưng một số người tin rằng AI tạo sinh có thể mở ra con đường tiến lên cho các tác giả vào thời điểm kiếm sống bằng sách khó khăn hơn bao giờ hết. Tất cả phụ thuộc vào ý nghĩa của một vài từ.

"Con quái vật" đại diện cho diễn biến mới

Trong suốt lịch sử của mình, ngành xuất bản luôn cần “một con quái vật” đại diện cho những diễn biến mới đe dọa đến cách làm việc truyền thống.

“Barnes & Noble từng như vậy một thời gian vì họ là một chuỗi hiệu sách và vì họ đã tập trung hóa việc bán sách”, Boris Kachka, tác giả của Hothouse: The Art of Survival and the Survival of Art at America's Most Celebrated Publishing House, cho biết . Sau đó, Amazon trở thành ông lớn bao trùm toàn ngành và Barnes & Noble đột nhiên trông có vẻ lỗi thời.

"Rất nhiều người trong chúng tôi sẽ không bao giờ đồng ý với một điều như vậy. Và bây giờ bạn lại nói rằng bạn không đủ khả năng chi trả? Điều đó có nghĩa đây không phải là một mô hình khả thi."

Tiếp theo là sự hợp nhất với sự sáp nhập bị cản trở của Simon & Schuster và Penguin Random House. Giờ đây, AI tạo sinh là “quái vật dưới gầm giường”. Mỗi nhân tố mang đến những thách thức thực sự cho ngành công nghiệp - và một số lợi ích - nhưng tất cả chúng đều là những biến thể của cùng một “nhân vật phản diện”: sự lựa chọn cạnh tranh và rủi ro.

Các chuỗi cửa hàng sách cắt giảm các nhà bán sách địa phương, Amazon cắt giảm các nhà bán sách truyền thống, các vụ sáp nhập cắt giảm các lựa chọn xuất bản và giờ đây AI đe dọa cắt giảm các quy trình sáng tạo và tuyển chọn chậm rãi, cẩn thận của ngành xuất bản.

Nhưng điều thực sự khác biệt về AI tạo sinh và có thể xác định sức mạnh độc đáo của nó trong câu chuyện xuất bản, chỉ là tốc độ di chuyển của nó - và luật pháp phải nỗ lực để bắt kịp sự phát triển này.

Mary Rasenberger, CEO của Authors Guild, cho biết: "Loại AI này có thể tái tạo nội dung tương tự những gì nó tiếp nhận, gây ra mối đe dọa hiện hữu đối với nghề viết và ngành xuất bản - nếu không được kiểm soát". "Nhiều người không làm trong ngành không nhận ra nghề này bấp bênh như thế nào và hoạt động kinh doanh không đồng đều ra sao", người đứng đầu tổ chức của các tác giả nói.

Một cuộc khảo sát gần đây do Authors Guild công bố cho thấy thu nhập trung bình của tác giả vào năm 2022 chỉ là 20.000 USD, trong đó chỉ một nửa là từ doanh số bán sách. Tuy nhiên, điều đáng lo ngại nhất về những con số này là chúng không thay đổi đáng kể theo lạm phát hoặc chi phí sinh hoạt tăng. Kiếm sống bằng nghề viết lách luôn là điều khó khăn, nhưng ngày nay, nó khó khăn hơn nhiều.

Trong khi đó, việc đưa một cuốn sách ra thế giới dễ dàng hơn bao giờ hết. Nền tảng Kindle Direct Publishing của Amazon đã thúc đẩy mảng tự xuất bản phát triển mạnh mẽ. Ở đó, các cá nhân đóng vai trò là tác giả, biên tập viên, nhà xuất bản, nhà tiếp thị và bộ phận quảng cáo tự làm việc - với Kindle Direct Publishing là kênh phân phối.

Vào năm 2023, ước tính có 2,5 triệu cuốn sách được tự xuất bản chỉ riêng tại Mỹ. Sách xuất bản theo cách truyền thống khó theo dõi hơn, nhưng có từ 500.000 đến 1 triệu cuốn đã được ra mắt vào năm ngoái - một con số khổng lồ theo đúng nghĩa của nó. Người đọc cũng chưa bao giờ có thể dễ dàng hoặc nhanh chóng có được một cuốn sách như vậy; với rất nhiều lựa chọn trên nhiều định dạng phương tiện, người đọc có thể đọc những gì họ muốn khi họ cần và theo cách họ muốn.

Nhưng cũng giống vô số các sản phẩm khác được bán trực tuyến, lừa đảo ẩn núp giữa vô số lựa chọn. Sách giả và hàng nhái chất lượng thấp từ lâu đã là vấn đề trên Amazon; vào năm 2019, công ty đã đưa ra tuyên bố rằng “Amazon nghiêm cấm việc bán các sản phẩm giả mạo. Chúng tôi đầu tư mạnh vào công tác phòng ngừa và thực hiện các bước chủ động để đưa tình trạng hàng giả trong các cửa hàng của mình về mức 0".

Làn sóng nội dung do AI tạo ra

Hiện nay sách do AI tạo ra có thể đang đẩy nhanh quá trình này ở quy mô đáng kinh ngạc. Vào mùa thu năm 2023, Amazon đã thiết lập giới hạn xuất bản cho các tác giả trên Kindle Direct Publishing để ứng phó với làn sóng nội dung do AI tạo ra đang gia tăng.

Trong khi trước đây, một tác giả có thể xuất bản nhiều tựa sách lên nền tảng này tùy thích, thì giờ đây họ chỉ được phép xuất bản ba tựa sách mỗi ngày (không phải hàng tháng hoặc hàng năm). Đọc đến đây, bất cứ ai cũng đặt ra câu hỏi: Liệu một người có thể xuất bản được 3 cuốn sách/ngày không?

Kwon cho biết cô đã viết cuốn sách đầu tiên sau 10 năm và cuốn thứ hai, Exhibit, sau chín năm. Ngay cả Colleen Hoover, một câu chuyện thành công trong lĩnh vực tự xuất bản, cũng mất cả năm để cho ra mắt ba cuốn sách đầu tiên của mình.

Rasenberger cho biết: "Nếu thị trường tràn ngập những cuốn sách do AI tạo ra, các nhà xuất bản sẽ khó đầu tư vào tác giả hơn". Đặc biệt là nếu bạn cho phép AI tạo ra những cuốn sách theo phong cách của John Grisham hoặc G.R.R Martin hoặc Elin Hilderbrand đó thực sự là hành động đánh cắp doanh số từ những tác giả đó.

Đây chính xác là xu hướng trong AI tạo sinh: các phiên bản của một mô hình được điều chỉnh theo một giọng điệu cụ thể. Đối với độc giả, việc đọc phần Game of Thrones cuối cùng của Martin (ngay cả khi ông không tự viết) hoặc một câu chuyện cổ tích mới có nhân vật chính yêu thích của họ có thể mang lại sự nhẹ nhõm. Đối với những kẻ lừa đảo, đó là công cụ “sát hại” các tác giả.

Jane Friedman, một tác giả, chuyên gia trong ngành và là người sáng lập ra bản tin xuất bản nổi tiếng Hot Sheet, đã tận mắt chứng kiến việc bị bắt chước trông sẽ như thế nào. Bà đã viết rất nhiều về trải nghiệm của mình khi gặp phải những cuốn sách do AI tạo ra được xuất bản dưới tên của bà với tiêu đề, thiết kế bìa và nội dung giống nhau một cách kỳ lạ.

Bà cho biết khi bà liên hệ với Amazon để khiếu nại, ban đầu công ty này nói rằng họ không thể làm gì được vì bà chưa đăng ký bảo hộ thương hiệu cho tên của mình. Sau khi sự phản đối của bà có tiếng vang, Amazon mới gỡ bỏ các tựa sách đó. Ngoài giới hạn mỗi người chỉ được xuất bản 3 cuốn/ngày, công ty vẫn chưa có quy trình nào để chống lại tình trạng này.

Quy mô nội dung do AI tạo ra quá lớn một phần vì nó quá rẻ để tạo ra. Đó là vì không ai trả tiền cho một trong những nguồn dữ liệu đào tạo chất lượng cao nhất: sách.

Các nhà đầu tư và lãnh đạo trong lĩnh vực AI biết rằng việc chi tiền cho nội dung này sẽ phá vỡ hoạt động kinh doanh của họ; một số thậm chí đã thừa nhận điều đó. Trong phản hồi gửi đến Văn phòng Bản quyền Mỹ, công ty đầu tư mạo hiểm Andreessen Horowitz đã viết: "Việc áp đặt chi phí trách nhiệm bản quyền thực tế hoặc tiềm ẩn đối với những người tạo ra các mô hình AI sẽ giết chết hoặc cản trở đáng kể sự phát triển của họ".

Các tài liệu được đệ trình trong vụ kiện của Hiệp hội Tác giả Mỹ chống lại OpenAI cho thấy hai bộ sách đào tạo (chứa khoảng 50 tỷ từ, theo số liệu của chính công ty) đã bị xóa trước vụ kiện.

Vấn đề nan giải là các sản phẩm do AI tạo ra đang bùng nổ phần lớn do một số nguyên liệu thô quan trọng đã được sử dụng miễn phí - hoặc theo một định nghĩa khác là bị đánh cắp. Kwon nói về việc công sức cả đời của mình bị sử dụng miễn phí cho hoạt động đào tạo AI: "Nhiều người trong chúng tôi sẽ không bao giờ đồng ý với một điều như vậy". "Và bây giờ bạn lại nói rằng bạn không đủ khả năng chi trả? Điều đó có nghĩa đây không phải là mô hình khả thi”, Kwon nói.

---------------------

Kỳ sau: 'Thần đèn' AI đã thoát khỏi chiếc bình xuất bản truyền thống

Phúc Hưng