Chi tiết cách ứng dụng AI tạo ra nhân vật vừa đàn, vừa hát giống người thật từ một bức ảnh

2 giờ trướcGốc

Những ứng dụng AI phổ thông hiện nay cho phép tạo ra nhân vật có thể đàn và hát từ một tấm ảnh. Mặc dù mức độ tái tạo chưa chân thực 100% nhưng nó cũng cho thấy sức mạnh đáng kinh ngạc của AI.

Trong chương trình Cầu truyền hình "Vang mãi khúc khải hoàn" kỷ niệm 50 năm ngày giải phóng miền Nam, thống nhất đất nước, phát sóng trên kênh VTV1, người xem đã rất ngạc nhiên khi thấy cố nhạc sĩ Trịnh Công Sơn được tái tạo bởi AI xuất hiện, hát một đoạn bài "Nối vòng tay lớn".

Video cố nhạc sĩ Trịnh Công Sơn tái tạo bằng AI trong chương trình cầu truyền hình "Vang mãi khúc khải hoàn"

Việc dùng AI để tạo ra nhân vật mô phỏng người thật đã được thế giới áp dụng từ nhiều năm trước. Chẳng hạn như phim "Fast and Furious 7" năm 2015 đã tái tạo cố diễn viên Paul Walker khi anh bị tai nạn không thể hoàn thành tập phim. Tuy nhiên, việc tái tạo như vậy thường phải sử dụng những phần mềm AI chuyên dụng, phức tạp.

Hiện nay, một số ứng dụng AI phổ thông cũng đã cho phép tạo ra nhân vật mô phỏng người thật có thể vừa đàn vừa hát từ một tấm ảnh tĩnh giống như VTV đã làm với cố nhạc sĩ Trịnh Công Sơn.

Dưới đây là cách tạo ra một nhân vật như vậy:

Đầu tiên, bạn hãy truy cập ứng dụng ChatGPT (có thể dùng bản miễn phí), tải lên tấm ảnh nhân vật muốn mô phỏng cùng với dòng lệnh (prompt) là: "tạo ảnh nhân vật đang chơi đàn, phong cách ảnh chụp, tạo ảnh kích thước 16:9".

Thông thường thì ChatGPT tạo ảnh có khuôn mặt không có nhiều nét giống với người thật. Lúc này, phải sử dụng ứng dụng Face Swap (đổi mặt) để tạo ra khuôn mặt với nhiều đường nét giống người thật hơn.

Để thực hiện điều này, truy cập vào trang faceswapper.ai, chọn mục Face Swap > Image Swap, tải lên ảnh mà ChatGPT vừa tạo ra, sau đó chọn ảnh chụp nhân vật với khuôn mặt rõ nhất để ứng dụng thực hiện việc hoán đổi.

Dưới đây là tấm ảnh sau khi được ứng dụng Face Swap thực hiện. Lúc này, cần sử dụng ứng dụng Kling AI để biến ảnh tĩnh thành một video với nhân vật vừa hát vừa chơi đàn.

Truy cập vào trang web klingai.com/global, đăng ký tài khoản người dùng, sau đó sử dụng tài khoản miễn phí với số credit được nhận để truy cập vào mục Video Generation (tạo video), chọn mục Image to Video (hình ảnh thành video). Tải lên ảnh mà Face Swap vừa tạo ra.

Kéo xuống phía dưới, trong mục Prompt, viết câu lệnh: Người hát vừa chơi đàn vừa đung đưa theo điệu nhạc bài "anh muốn em phải sống sao".

Chọn thời lượng video. Bản Kling AI miễn chỉ cho phép tạo video có thời lượng tối đa 10 giây. Bản trả phí có thể tạo ra video với thời lượng dài hơn.

Bấm nút "Generate" để tạo video

Tiếp theo, sử dụng tính năng để tạo cử động khuôn miệng nhân vật AI giống như lời hát. Chọn mục "Lip Sync".

Tải lên một đoạn bài hát có thời lượng 10 giây (tương đương với thời lượng video miễn phí), sau đó chọn nút "Generate" để tạo video. Lưu ý là video miễn phí sẽ bị gắn logo ứng dụng Kling AI.

Và đây là thành quả video do Kling AI tạo ra:

Người dùng cũng có thể sử dụng ứng dụng Latent Sync để thực hiện tính năng Lip Sync. Truy cập vào trang web latentsync.org/tools/dashboard. Tải lên đoạn video mà Kling AI tạo ra ban đầu (video chưa Lip Sync), sau đó tải lên đoạn nhạc có lời hát của nhân vật. Latent Sync cũng cho phép tạo video miễn phí với thời lượng tối đa 10 giây. Bấm nút Generate để tạo video.