Microsoft giới thiệu AI VASA-1 giúp tạo khuôn mặt biết nói từ ảnh và lời nói
Các nhà nghiên cứu của Microsoft đã phát triển hệ thống VASA có thể tạo ra những khuôn mặt biết nói giống như thật chỉ từ một hình ảnh và một đoạn âm thanh.
VASA-1 của Microsoft có thể tạo ra nét mặt, chuyển động môi đồng bộ chính xác và chuyển động đầu tự nhiên. Điều này có khả năng tạo ra trải nghiệm hấp dẫn và thực tế hơn trong các ứng dụng khác nhau.
VASA-1 không chỉ đơn giản là kết hợp chuyển động của môi với âm thanh mà còn có thể ghi lại nhiều loại cảm xúc, sắc thái tinh tế trên khuôn mặt và chuyển động đầu tự nhiên, làm cho khuôn mặt được tạo ra trông đáng tin cậy hơn. Nó cũng có quyền kiểm soát video được tạo. Người dùng có thể chỉ định hướng nhìn của nhân vật, khoảng cách cảm nhận và thậm chí cả trạng thái cảm xúc của họ.
Điều tốt nhất là hệ thống cũng được thiết kế để xử lý những đầu vào không mong muốn. Mặc dù chưa được đào tạo về ảnh nghệ thuật, giọng hát hoặc giọng nói không phải tiếng Anh, VASA-1 vẫn có thể tạo video bằng cách sử dụng những đầu vào này. VASA-1 có được tính chân thực này bằng cách tách các đặc điểm trên khuôn mặt, vị trí đầu 3D và nét mặt thành các phần riêng biệt. Việc “giải quyết vấn đề” này mang lại khả năng kiểm soát và chỉnh sửa độc lập các khía cạnh này trong video được tạo.
Các nhà nghiên cứu đằng sau VASA-1 nêu bật tính hiệu quả trong thời gian thực của nó. Hệ thống có thể tạo ra video có độ phân giải cao (512 x 512 pixel) ở tốc độ khung hình cao. Ở chế độ ngoại tuyến, nó tạo ra các khung hình ở tốc độ 45 khung hình mỗi giây, trong khi chế độ tạo trực tuyến cung cấp 40 khung hình mỗi giây.
Trong khi thừa nhận khả năng bị lạm dụng, các nhà nghiên cứu nhấn mạnh những ứng dụng tích cực của VASA-1. Chúng bao gồm nâng cao trải nghiệm giáo dục, hỗ trợ mọi người gặp khó khăn trong giao tiếp và cung cấp sự đồng hành hoặc hỗ trợ trị liệu.
Dù sao đi nữa, vẫn có những dấu hỏi về nghiên cứu này, đặc biệt khi công nghệ này có thể bị lạm dụng nghiêm trọng, đặc biệt là khi các cuộc bầu cử diễn ra.