Công cụ AI của Microsoft có thể giúp hình ảnh nói chuyện
Mô hình AI mới của Microsoft có khả năng tạo ra nét mặt và chuyển động đầu cho hình ảnh tĩnh cũng như chuyển động môi thích hợp khớp với lời nói.
Microsoft Research Asia vừa tiết lộ một mô hình AI mới có tên VASA-1. Mô hình này chỉ cần hình ảnh và một tệp âm thanh của một người là đã có thể tạo ra khuôn mặt biết nói giống như thật trong thời gian thực.
Mô hình này có khả năng tạo ra nét mặt và chuyển động đầu cho hình ảnh tĩnh cũng như chuyển động môi thích hợp khớp với lời nói. Các nhà nghiên cứu đã đăng tải rất nhiều ví dụ trên trang dự án và kết quả trông đủ tốt để có thể đánh lừa người dùng.
Hãng phần mềm Mỹ cho biết đây là "hệ thống động học cho khuôn mặt" được huấn luyện thông qua mô hình tạo chuyển động "tốt hơn một cách toàn diện so với các phương pháp trước đó". AI này hỗ trợ xử lý ảnh chân dung với phần đầu và phần trên của thân, với các biểu cảm vui vẻ, tức giận, ngạc nhiên hoặc nghiêm nghị.
Mặc dù chuyển động của môi đôi lúc vẫn chưa thể khớp hoàn toàn với lời nói, nhưng công nghệ này có thể bị lạm dụng để tạo video deepfake một cách dễ dàng và nhanh chóng. Bản thân các nhà nghiên cứu nhận thức được tiềm năng đó và đã quyết định không phát hành "bản demo, API, sản phẩm hoặc bất kỳ dịch vụ liên quan nào" cho đến khi họ chắc chắn rằng công nghệ của họ "sẽ được sử dụng một cách có trách nhiệm và phù hợp".
"Nghiên cứu của chúng tôi tập trung vào phát triển cảm xúc trực quan cho ảnh đại diện AI, hướng tới ứng dụng tích cực", Microsoft viết trên website công ty. "Nó không nhằm tạo nội dung gây hiểu lầm hoặc lừa dối. Tuy nhiên, giống như các mô hình AI khác, nó vẫn có thể bị lạm dụng để mạo danh con người. Chúng tôi phản đối bất kỳ hành vi nào như vậy".
Các nhà nghiên cứu tin rằng công nghệ của họ có rất nhiều lợi ích mặc dù có khả năng bị lạm dụng. Họ cho biết nó có thể được sử dụng để nâng cao tính công bằng trong giáo dục, cũng như cải thiện khả năng tiếp cận cho những người gặp khó khăn trong giao tiếp.
Theo bài báo của Finanacial Yahoo, VASA-1 đã được đào tạo trên Bộ dữ liệu VoxCeleb2, chứa "hơn 1 triệu lời nói của 6.112 người nổi tiếng" được trích xuất từ video YouTube.