'Ác mộng' từ AI tạo video mới của Google

27/5/2025 Gốc

Chỉ bằng vài dòng lệnh cơ bản, những video 'rác' được Veo 3 - AI tạo video mới nhất của Google phục dựng với độ chân thực đến không tưởng.

Tại sự kiện Google I/O 2025, Google đã gây sốc cho giới công nghệ khi giới thiệu mô hình AI tạo video mang tên Veo 3, đánh dấu bước tiến lớn của một gã khổng lồ công nghệ vào lĩnh vực đang gây ra nhiều tranh cãi.

Theo trải nghiệm từ phóng viên Allison Johnson của The Verge, điều tinh vi nhất của Veo 3 là khả năng tạo âm thanh gốc cho từng video từ hiệu ứng âm thanh, tiếng ồn nền đến cả lời thoại cho nhân vật.

"Veo 3 khiến tôi ấn tượng như một cỗ máy tạo ra nội dung AI 'rác' một cách tuyệt đối", phóng viên The Verge nhận xét.

AI tạo video mới của Google gây sốt với độ chân thực cao Theo trải nghiệm từ phóng viên Allison Johnson của The Verge, điều tinh vi nhất của Veo 3 là khả năng tạo âm thanh gốc cho từng video từ hiệu ứng âm thanh, tiếng ồn nền đến cả lời thoại cho nhân vật.

Tính năng mới và mức độ chân thực gây sốc

"Chúng ta đang bước vào một kỷ nguyên sáng tạo mới", Phó Chủ tịch Gemini của Google, Josh Woodward giải thích trong bài phát biểu ra mắt Veo 3 và nhấn mạnh khả năng tạo video "cực kỳ chân thực".

Johnson ban đầu tỏ vẻ nghi ngờ, nhưng sau khi đích thân trải nghiệm công cụ AI này, cô đã khẳng định Woodward không hề phóng đại. Veo 3 có khả năng tạo sản phẩm chân thực đến đáng sợ.

Cụ thể, phóng viên The Verge đã thử tạo một video ngắn với nội dung là một người dẫn chương trình tin tức thông báo một vụ hỏa hoạn. Đoạn clip cực kỳ thuyết phục, với chất lượng âm thanh và khung cảnh giống với bất kỳ bản tin truyền thống nào.

Một cảnh trong video do Veo 3 tạo ra. Ảnh: The Verge.

Ngay sau đó, bài đăng bao gồm một loạt video với các nhân vật do AI tạo ra phản đối các lệnh được sử dụng để tạo ra video bằng AI đã có 50.000 lượt ủng hộ trên Reddit. Các cảnh bao gồm thảm họa, một phụ nữ nằm trên giường bệnh sử dụng ống thở, và một nhân vật bị đe dọa bằng súng — tất cả đều có đối thoại bằng lời nói và âm thanh nền thực tế.

So với những công cụ AI tạo video khác, Veo 3 đã làm mọi thứ trở nên đơn giản hơn rất nhiều. Tất cả chỉ cần là một câu lệnh cơ bản, vài phút chờ nền tảng xử lý và đăng ký gói AI Ultra (249,99 USD mỗi tháng) của Google.

Thậm chí Johnson còn dễ dàng tạo video hơn khi sử dụng câu lệnh ít cụ thể hơn và điều đó đã chỉ ra một điều: Veo 3 rất xuất sắc trong việc tạo ra loại nội dung YouTube có mẫu số chung thấp nhất dành cho trẻ em.

Chấm dứt “kỷ nguyên phim câm”

Cho đến nay, chưa có mô hình tạo video AI nào có thể đồng thời cung cấp âm thanh đồng bộ, hoặc bất kỳ loại âm thanh nào để đi kèm với đầu ra video. Tuy nhiên, Veo 3 - với khả năng tạo âm thanh đồng bộ, đang muốn chấm dứt “kỷ nguyên phim câm”.

"Chúng ta đang thoát khỏi kỷ nguyên im lặng của việc tạo video", CEO Google DeepMind Demis Hassabis cho biết trong cuộc họp báo.

Sự có mặt rộng rãi của các công cụ để xây dựng trình tạo video đã dẫn đến sự bùng nổ của các nhà cung cấp đến mức không gian này đang trở nên bão hòa.

Từ các startup như Runway, Lightricks, Genmo, Pika, Higgsfield, Kling và Luma, cho đến những gã khổng lồ công nghệ như OpenAI và Alibaba, đang phát hành các mô hình với tốc độ nhanh. Trong nhiều trường hợp, có rất ít sự khác biệt giữa các mô hình này với nhau.

Vẫn chưa rõ liệu Veo 3 có khả năng vượt qua OpenAI Sora về chất lượng video hay không. Mặc dù vậy, chỉ tính riêng việc xuất ra các đoạn video đã được sản xuất hoàn chỉnh với cả phần hình ảnh và âm thanh có thể ngay lập tức biến Veo 3 thành một nền tảng hấp dẫn hơn.

Điểm nổi bật nhất của Veo 3 là khả năng tạo âm thanh đồng bộ ở mức "hoàn hảo" cùng video. Ảnh: Google.

"Trong thế giới điện ảnh và truyền hình, tiếng ồn nền và hiệu ứng âm thanh thường là công việc của các nghệ sĩ. Bây giờ, hãy tưởng tượng nếu tất cả những gì bạn cần làm là mô tả cho Veo âm thanh bạn muốn ở phía sau và gắn liền với hành động, và nó sẽ xuất ra tất cả, bao gồm video và lời thoại. Đây là công việc mà các nhà làm phim hoạt hình phải mất hàng tuần hoặc hàng tháng để thực hiện", Johnson nhận xét.

Nếu Veo 3 thật sự có thể làm theo các câu lệnh và xuất ra hàng giờ video và âm thanh nhất quán, sẽ không lâu nữa để có một bộ phim hoạt hình đầu tiên được tạo hoàn toàn bằng AI.

Ngay sau khi Veo 3 ra mắt, những người sáng tạo bắt đầu chia sẻ clip trên các nền tảng như X, trong đó nổi bật là một video hài độc thoại được tạo hoàn toàn bằng AI. Người xem đã rất ngạc nhiên khi biết toàn bộ cảnh quay, gồm giọng nói, video, thậm chí cả âm thanh của khán giả đều được tạo ra chỉ từ một câu lệnh mô tả bằng văn bản.

Sau đó, một đoạn clip khác đang viral với nội dung tái hiện Pythagoras giải thích định lý nổi tiếng của mình, hoàn chỉnh với bối cảnh cổ xưa và lời thoại chính xác. Thậm chí còn có một video ca nhạc do Veo 3 thực hiện hoàn toàn, trong đó cả hình ảnh và âm nhạc đều đồng bộ hoàn hảo.

Economic Times nhận xét loại công nghệ này có thể được gọi là "kỷ nguyên mới của làm phim", cho phép bất kỳ ai - từ những người sáng tạo đơn lẻ đến các hãng phim truyền thông lớn - sản xuất nội dung chuyên nghiệp với chi phí thấp và nguồn lực tối thiểu.

Anh Tuấn

Nguồn Znews: https://znews.vn/ac-mong-tu-ai-tao-video-moi-cua-google-post1556018.html