Đằng sau công cụ nhái giọng của OpenAI

03/4/2024 Gốc

Công cụ Voice Engine của OpenAI có thể nhân bản giọng nói từ file mẫu dài 15 giây, chứa nhiều rủi ro nếu phát hành rộng rãi.

Khi deepfake ngày càng phổ biến, OpenAI vừa giới thiệu Voice Engine. Được phát triển trong 2 năm, công cụ này có thể nhân bản giọng nói từ file mẫu dài 15 giây do người dùng cung cấp.

Tương tự mô hình tạo video Sora, Voice Engine chưa phát hành rộng rãi. Theo OpenAI, điều này giúp công ty có thời gian phân tích, ngăn chặn hành động lợi dụng công cụ cho mục đích xấu.

"Chúng tôi muốn đảm bảo mọi người hài lòng về cách công cụ được triển khai. Chúng tôi hiểu những khả năng công cụ có thể gây nguy hiểm, và có biện pháp giảm nhẹ điều đó", Jeff Harris, thành viên bộ phận sản phẩm tại OpenAI, cho biết.

Cách hoạt động của Voice Engine

Theo Harris, mô hình tạo sinh đứng sau Voice Engine đã được sử dụng âm thầm trong một thời gian.

Đây là mô hình dùng cho tính năng "đọc to" trong ChatGPT, cũng như được Spotify dùng từ tháng 9/2023 để lồng tiếng một số podcast bằng nhiều ngôn ngữ.

Đại diện OpenAI cho biết dữ liệu đào tạo mô hình kết hợp bản ghi giọng nói công khai và có bản quyền. Theo TechCrunch, việc các công ty bảo mật nguồn gốc dữ liệu nhằm tránh khả năng bị kiện do vi phạm sở hữu trí tuệ. Đây là tình trạng nhiều công ty huấn luyện AI đang đối mặt, kể cả OpenAI.

Mô hình của Voice Engine không được tinh chỉnh, hoặc đào tạo dựa trên người dùng. Để nhận diện và tạo giọng nói, công cụ này kết hợp giữa mô hình khuếch tán (diffusion) với transformer.

Website giới thiệu Voice Engine của OpenAI.

"Chúng tôi lấy một mẫu âm thanh nhỏ, sau đó tạo giọng nói thực tế khớp với giọng ban đầu. Mẫu giọng được cung cấp sẽ bị loại bỏ sau khi hoạt động xong", Harris giải thích.

Theo đại diện OpenAI, mô hình này sẽ phân tích dữ liệu, đặc điểm giọng nói từ file mẫu rồi kết hợp văn bản được cung cấp để tạo ra giọng nói phù hợp.

Đây thực chất không phải cách làm mới. Các công ty cung cấp dịch vụ nhân bản giọng nói như ElevenLabs, Replica Studios, Papercup, kể cả nhóm Big Tech như Google, Microsoft cũng sử dụng kỹ thuật này.

Voice Engine sẽ không miễn phí

Theo kế hoạch, OpenAi sẽ thu phí Voice Engine. Trong một tài liệu, công cụ có giá 15 USD cho một triệu ký tự, tương đương khoảng 162.500 chữ. Riêng tùy chọn giọng nói HD (độ phân giải cao) đắt hơn gấp đôi nhưng chưa rõ sự khác biệt.

Mức phí trên đồng nghĩa âm thanh có thời lượng khoảng 18 tiếng, rẻ hơn so với đối thủ. Ví dụ, ElevenLabs tính phí 11 USD cho 100.000 ký tự mỗi tháng.

Hiện tại, Voice Engine chưa có khả năng chỉnh tông, cao độ hoặc nhịp điệu giọng nói. Dù vậy, Harris cho biết tính chất của giọng mẫu sẽ được đưa vào kết quả. Ví dụ nếu giọng ban đầu có dạng phấn khích, công cụ sẽ "nhái" theo kiểu tương tự.

Sự xuất hiện của các công cụ nhái giọng khiến diễn viên lồng tiếng chịu ảnh hưởng nặng. Giới lồng tiếng chuyên nghiệp đối diện nguy cơ bị sử dụng giọng nói để nhân bản, trong khi công việc lồng tiếng cơ bản đứng trước nguy cơ bị AI thay thế.

Quy trình nhân bản giọng nói của ElevenLabs, sử dụng kỹ thuật tương tự Voice Engine. Ảnh: ElevenLabs.

Nhiều công ty nhân bản giọng nói bằng AI đang cố gắng cân bằng lợi ích. Năm ngoái, Replica Studios đã ký thỏa thuận với Hiệp hội Diễn viên Màn ảnh - Liên đoàn Nghệ sĩ Truyền hình và Phát thanh Mỹ (SAG-AFTRA) để tạo và cấp phép bản sao giọng nói của các thành viên hiệp hội.

Trong khi đó, ElevenLabs mở thị trường giọng nói, cho phép người dùng tạo, xác minh và chia sẻ công khai giọng của họ. Khi có người sử dụng, chủ giọng nói sẽ nhận tiền cho mỗi 1.000 ký tự.

Đối với Voice Engine, trước mắt OpenAI sẽ dựa vào "sự cho phép rõ ràng" từ người có giọng nói được nhân bản.

Khi sử dụng, công cụ sẽ "tiết lộ rõ ràng" giọng nói tạo bởi AI, và không nhân bản giọng của trẻ vị thành niên, người đã khuất hoặc nhân vật chính trị.

Chưa thể phát hành rộng rãi

Không chỉ đe dọa diễn viên lồng tiếng, ứng dụng nhân bản giọng nói đã bị lạm dụng để bôi nhọ hoặc lừa đảo.

Trên 4chan, nhiều tài khoản sử dụng ElevenLabs để chia sẻ thông điệp căm thù, giọng nói bắt chước những người nổi tiếng như diễn viên Emma Watson.

Công cụ nhân bản giọng nói cũng là chủ đề "nóng" khi nước Mỹ chuẩn bị bầu cử tổng thống. Vào tháng 1, một chiến dịch qua điện thoại đã sử dụng hình ảnh giả Tổng thống Joe Biden để ngăn cản người dân New Hampshire bỏ phiếu.

Đối với Voice Engine, Harris chia sẻ một số chính sách ngăn chặn lạm dụng. Đầu tiên, công cụ hiện chỉ được cung cấp cho một nhóm nhà phát triển nhỏ, khoảng 10 người để thử nghiệm.

OpenAI đang ưu tiên các trường hợp sử dụng "rủi ro thấp" và "có lợi cho xã hội" như chăm sóc sức khỏe và phục vụ người khuyết tất.

Age of Learning, công ty công nghệ giáo dục sử dụng Voice Engine để tạo giọng thuyết minh từ diễn viên. Ngoài ra, ứng dụng kể chuyện HeyGen cũng sử dụng công cụ để dịch giọng nói.

Một số giọng nói của Voice Engine được chia sẻ trên website OpenAI. Ảnh: Mashable.

Giọng nói tạo bởi Voice Engine sẽ được "đánh dấu" (watermark) bằng kỹ thuật do OpenAI tự phát triển, có thể nhúng vào file ghi âm và không nghe được.

"Với đoạn âm thanh nào đó, chúng tôi có thể dễ dàng nghe và xác định xem nó có được tạo bằng hệ thống của chúng tôi hay không.

Cho đến nay, mã nguồn của công cụ vẫn đóng... Chúng tôi tò mò về việc công khai, nhưng đương nhiên điều đó đi kèm rủi ro bị lợi dụng và phá hoại", Harris nhấn mạnh.

OpenAI có kế hoạch mời chuyên gia cho nhóm Red Teaming Network để lên chiến lược phân tích, giảm rủi ro cho mô hình.

Tùy thuộc kết quả thử nghiệm và phản hồi từ công chúng, OpenAI có thể phát hành Voice Engine cho nhiều nhà phát triển hơn. Tuy nhiên trong thời điểm này, công ty chưa thể hứa hẹn.

Dù vậy, Harris cũng tiết lộ giai đoạn sắp tới của Voice Engine. Cụ thể, OpenAI đang thử nghiệm cơ chế bảo mật, cho phép người dùng đọc văn bản ngẫu nhiên để xác thực "giọng chính chủ", và giải thích rõ giọng nói nhân bản của họ được sử dụng thế nào.

"Chiến lược phát triển của chúng tôi với công nghệ khớp giọng thực tế sẽ phụ thuộc kinh nghiệm từ đợt thử nghiệm, các vấn đề an toàn chưa được phát hiện và biện pháp giảm rủi ro mà chúng tôi áp dụng.

Chúng tôi không muốn mọi người nhầm lẫn giữa giọng nói nhân tạo và giọng thật của con người", Harris nhấn mạnh.

Đây là giọng nói tạo bởi AI OpenAI trình diễn giọng nói nhân bản bởi công cụ AI có tên Voice Engine.

Phúc Thịnh