Google tung Gemini Omni, AI tạo video từ mọi dữ liệu đầu vào
Google vừa công bố Gemini Omni tại sự kiện Google I/O 2026, mở rộng tham vọng đưa AI tiến gần hơn tới quá trình sản xuất nội dung hoàn chỉnh. Mô hình mới kết hợp suy luận, nhận biết bối cảnh cùng năng lực sáng tạo đa phương thức, cho phép tạo video từ văn bản, hình ảnh, âm thanh hoặc tư liệu video chỉ trong một quy trình thống nhất.
Google gọi Omni là mô hình “có thể sáng tạo mọi thứ từ bất kỳ đầu vào nào”. Hướng triển khai đầu tiên tập trung vào video, lĩnh vực vốn đòi hỏi AI xử lý đồng thời hình ảnh, chuyển động, âm thanh cùng logic kể chuyện. Trong phần trình diễn tại sự kiện, Gemini Omni tiếp nhận nhiều dạng dữ liệu khác nhau rồi tự đồng bộ thành một đoạn video hoàn chỉnh, giữ xuyên suốt nhân vật, bối cảnh và diễn biến giữa các phân cảnh.
Khác nhiều công cụ tạo video AI trước đây vốn phụ thuộc mạnh vào câu lệnh văn bản, Gemini Omni mở rộng khả năng tương tác tự nhiên hơn. Người dùng chỉ cần trò chuyện trực tiếp với mô hình để chỉnh sửa chi tiết video, thay đổi góc quay, bổ sung vật thể hoặc điều chỉnh diễn biến. Cách vận hành này cho thấy Google muốn biến AI thành một “bàn dựng số” thay cho công cụ xử lý từng tác vụ rời rạc.

Google Gemini Omni. Ảnh: Google
Điểm đáng chú ý nằm ở khả năng suy luận bối cảnh. Theo Google, Omni không chỉ dựng hình từ dữ liệu đầu vào mà còn hiểu mối liên hệ giữa vật thể, chuyển động cùng các quy luật vật lý trong môi trường thực tế. Hệ thống ghi nhớ diễn biến trước đó, duy trì tính nhất quán giữa các khung hình và dự đoán bước chuyển tiếp tiếp theo của câu chuyện. Đây cũng là khác biệt quan trọng giữa video AI mang tính minh họa với video có cấu trúc kể chuyện hoàn chỉnh.
Google DeepMind cho biết mô hình tận dụng kho dữ liệu tri thức của Gemini về lịch sử, khoa học và văn hóa để tăng chiều sâu nội dung. Omni đồng thời cải thiện khả năng mô phỏng trọng lực, động năng hay chuyển động chất lưu, yếu tố từng khiến nhiều video AI trước đây tạo cảm giác thiếu tự nhiên. Sau mô hình tạo ảnh Nano Banana ra mắt năm ngoái, Omni cho thấy Google đang đẩy nhanh tốc độ cạnh tranh trong cuộc đua AI sáng tạo nội dung.
Song song khả năng sáng tạo, Google cũng siết kiểm soát xác thực nội dung. Tất cả video tạo bằng Omni đều gắn dấu mờ kỹ thuật số vô hình SynthID cùng chứng chỉ C2PA nhằm hỗ trợ truy xuất nguồn gốc nội dung qua Gemini hoặc Google Search. Hãng hiện giới hạn tính năng chỉnh sửa giọng nói bằng chính âm thanh gốc của người dùng nhằm giảm nguy cơ giả mạo phát ngôn và deepfake.
Phiên bản đầu tiên mang tên Gemini Omni Flash đã bắt đầu triển khai cho người dùng đăng ký Google AI Pro và Ultra thông qua ứng dụng Gemini cùng Google Flow. Google đồng thời mở miễn phí công cụ này trên YouTube Shorts và YouTube Create từ tuần này trước khi mở rộng sang nhóm phát triển và khách hàng doanh nghiệp.











