Gemini Omni: AI hiểu thế giới đa phương thức của Google

Khi Google giới thiệu Gemini Omni tại Google I/O 2026, điều khiến giới công nghệ chú ý không chỉ là một mô hình AI tạo video mới. Thứ thực sự gây tranh luận là tham vọng lớn hơn phía sau dự án này: Xây dựng một hệ AI có khả năng 'hiểu thế giới' thay vì chỉ xử lý ngôn ngữ.

1 giờ trước Gốc

Trong nhiều năm, AI hiện đại phát triển dựa trên các mô hình ngôn ngữ lớn. Chúng có thể viết văn bản, trả lời câu hỏi, lập trình hay dịch thuật với tốc độ và độ chính xác ngày càng cao. Tuy nhiên, phần lớn những hệ thống này vẫn hoạt động theo nguyên lý dự đoán xác suất: phân tích lượng dữ liệu khổng lồ để tạo ra phản hồi hợp lý tiếp theo.

Bài đăng của Google trên X.

Gemini Omni cho thấy Google đang muốn vượt khỏi giới hạn AI đã chạm tới

Theo các tài liệu công bố từ Google DeepMind, Gemini Omni được xây dựng như một mô hình “omni-modal”, có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video trong cùng một hệ thống.

Nhưng điểm đáng chú ý hơn nằm ở cách Google mô tả công nghệ này. Thay vì nhấn mạnh khả năng tạo nội dung, hãng liên tục nhắc đến những khái niệm như “simulation”, “physics” hay “multimodal reasoning” - có nghĩa là, AI không chỉ tạo ra hình ảnh đẹp hay video mượt, mà phải hiểu cách thế giới vận hành.

Điều đó nghe có vẻ trừu tượng, nhưng lại là khác biệt rất lớn.

Điểm đáng chú ý nhất của mô hình này chính là bước "nhảy vọt" khi khiến cho AI hiểu "thế giới vật lý". Google nhấn mạnh rằng Gemini Omni không chỉ tạo video đẹp mà còn cố mô phỏng: trọng lực, chuyển động cơ thể, ánh sáng, tính liên tục giữa các cảnh.

Theo đó, chỉ cần người dùng đưa ảnh, đoạn ghi âm và mô tả văn bản bất kỳ, Omni có thể tạo thành một video hoàn chỉnh với chuyển động, ánh sáng và lời thoại phù hợp.

Gemini Omni có thể mô phỏng sinh động các chuyển động vật lý gần giống thế giới thực.

"World model" - cuộc đua mới của ngành AI

Một chatbot truyền thống có thể biết rằng khi trời mưa thì đường thường ướt, đơn giản vì nó đã học từ hàng triệu đoạn văn bản tương tự. Nhưng với “world model”, AI được kỳ vọng sẽ hiểu sâu hơn về mối quan hệ giữa các hiện tượng vật lý: ánh sáng thay đổi theo góc máy, vật thể chuyển động chịu tác động của trọng lực, hay một nhân vật phải giữ tính nhất quán giữa nhiều khung hình liên tiếp.

Đây cũng là lý do các mô hình video AI đang trở thành trung tâm của cuộc đua công nghệ mới. Video chứa đồng thời không gian, thời gian, chuyển động và logic nhân quả. Để tạo ra một đoạn video thuyết phục, AI không thể chỉ ghép những khung hình đẹp với nhau. Nó cần mô phỏng được hành vi của thế giới thực.

Theo TechCrunch, Google đang định vị Gemini Omni như một hệ thống có thể tạo nội dung từ bất kỳ dạng dữ liệu đầu vào nào. Tham vọng này khá tương đồng với hướng đi mà OpenAI từng mô tả cho Sora, nơi mô hình video được xem như “world simulator” - công cụ mô phỏng thế giới.

Gemini Omni có thể mô tả thực tại, edit video bằng hội thoại

Các demo đầu tiên của Gemini Omni cho thấy Google không chỉ muốn AI tạo video, mà còn muốn AI chỉnh sửa và duy trì logic của video thông qua hội thoại liên tục. Người dùng có thể yêu cầu thay đổi thời tiết, góc quay hay phong cách hình ảnh chỉ bằng ngôn ngữ tự nhiên, trong khi nhân vật và bối cảnh vẫn được giữ ổn định giữa các cảnh quay. Đây là điểm mà nhiều công cụ text-to-video trước đó vẫn gặp khó khăn.

Đằng sau các demo này là một thay đổi lớn hơn trong chiến lược AI của Google. Thay vì phát triển các sản phẩm rời rạc cho chatbot, hình ảnh hay video, công ty đang hợp nhất chúng thành một hệ thống thống nhất có thể nhìn, nghe, hiểu và tạo nội dung đa phương thức trong cùng một môi trường.

Nói cách khác, Google dường như không còn xem Gemini đơn thuần là chatbot, mà là nền tảng AI có khả năng tương tác với thế giới thực theo cách toàn diện hơn.

Dĩ nhiên, khoảng cách giữa tham vọng và thực tế vẫn còn rất lớn. Các bản thử nghiệm hiện tại vẫn xuất hiện lỗi chuyển động, inconsistency nhân vật hay các chi tiết vật lý chưa hoàn toàn tự nhiên. Google cũng chưa công bố đầy đủ benchmark kỹ thuật của Omni, khiến giới nghiên cứu khó đánh giá chính xác năng lực thật sự của mô hình này.

Dù Gemini Omni vẫn chưa thể “hiểu thế giới” như con người, công nghệ này cho thấy AI đang bước sang một giai đoạn mới. Mục tiêu giờ đây không chỉ là tạo ra các chatbot trả lời thông minh hơn, mà là xây dựng những hệ thống có thể hiểu môi trường xung quanh, nhận biết không gian và dự đoán điều gì sẽ xảy ra trong thế giới thực.

Nếu xu hướng này tiếp tục phát triển, AI tương lai có thể không chỉ dừng ở việc trò chuyện, mà còn có khả năng quan sát, suy luận và tương tác với cuộc sống thực theo cách ngày càng giống trí tuệ con người hơn.

Đỗ Tho

Nguồn Công dân & Khuyến học: https://congdankhuyenhoc.vn/gemini-omni-ai-hieu-the-gioi-da-phuong-thuc-cua-google-179260521094247957.htm

Đế chế AI trị giá hơn 300 tỷ USD của Google đang có những gì?

2 giờ

CEO Google DeepMind nói về điểm kỳ dị AI và 4 điểm nổi bật ở I/O 2026

Mẫu kính thông minh tích hợp AI đầu tiên của Google sẽ ra mắt trong năm nay

5 giờ

Tin nóng

Khánh Hòa: Đổi mới sáng tạo, xây dựng hệ sinh thái dữ liệu và chuyển đổi số

13 phút

Ngày 20.5, UBND tỉnh Khánh Hòa và Tập đoàn Bưu chính Viễn thông Việt Nam - VNPT đã ký kết thỏa thuận hợp tác về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số tỉnh Khánh Hòa giai đoạn 2026 - 2030, nhằm tiếp tục tạo sự phát triển đột phá về công nghệ, đổi mới sáng tạo và chuyển đổi số trên địa bàn tỉnh.

4 loại giấy tờ đăng kiểm sẽ được thay thế bằng dữ liệu điện tử

5 giờ

Bộ Xây dựng vừa ban hành Quyết định số 744/QĐ-BXD về việc công bố, hướng dẫn kết nối và khai thác dữ liệu đăng kiểm phương tiện giao thông. Theo đó, dữ liệu trên hệ thống đã đủ điều kiện để thay thế trực tiếp cho nhiều loại giấy tờ vật lý trong quá trình người dân, doanh nghiệp thực hiện thủ tục hành chính.

Trump Mobile gặp lỗi ngay khi ra mắt

3 giờ

Chiếc điện thoại Trump Mobile T1 vừa đến tay người dùng đầu tiên đã bị phát hiện lỗi rò rỉ thông tin cá nhân khách hàng qua một lỗ hổng bảo mật đơn giản.

Nvidia lập kỷ lục mới

2 giờ

Sự bùng nổ từ tác nhân AI (AI agent) cùng nhu cầu điện toán trung tâm dữ liệu khổng lồ đã đẩy doanh thu của Nvidia đạt mức kỷ lục 82 tỷ USD.

Alibaba trình làng chip AI thế hệ mới thách thức Nvidia

3 giờ

Tập đoàn công nghệ Alibaba vừa chính thức công bố mẫu chip AI thế hệ mới mang tên Zhenwu M890. Sản phẩm này nhằm giảm sự phụ thuộc vào Nvidia tại thị trường Trung Quốc.

'Túi khôn' của quốc gia - vai trò mới được đặt ra cho đại học

6 giờ

Đại biểu Quốc hội cho rằng định vị Đại học Quốc gia Hà Nội trở thành 'túi khôn' quốc gia là yêu cầu rất cao, nhưng cũng rất đúng với xu thế phát triển của thế giới hiện đại.

Tin mới

Redmi K90 Ultra lộ diện với thông số khủng: Màn hình 7 inch và pin 10.000 mAh

vài giây

Xiaomi đang thử nghiệm Redmi K90 Ultra với vi xử lý Dimensity 3nm mạnh mẽ, màn hình 7 inch khổng lồ và dung lượng pin vượt mốc 10.000 mAh, hứa hẹn là quái vật gaming mới.

Viettel Money tự động đăng ký dịch vụ bảo hiểm màn hình điện thoại MIC mà không xin phép, ví điện tử đang tự chọn hộ người dùng

4 phút

Viettel Money tự động đăng ký dịch vụ bảo hiểm màn hình điện thoại MIC cho khách hàng ngay trong lúc họ thanh toán cước di động, không có nút tích xác nhận hay bất kỳ thông tin nào về gói bảo hiểm hiển thị trên giao diện ứng dụng trước khi giao dịch hoàn tất. Tin nhắn từ đầu số BAOHIEMVT tự động gửi về điện thoại xác nhận hợp đồng đã được lập, phí kỳ đầu 0 đồng, tự động trừ 6.000 đồng mỗi tháng từ kỳ tiếp theo. Sự việc lặp lại sau đúng chín tháng kể từ khi bảo hiểm an ninh mạng VBI bị phản ánh với cơ chế hoàn toàn tương tự, trong bối cảnh Bộ Khoa học và Công nghệ vừa ban hành kế hoạch thanh tra và kiểm tra toàn diện thị trường tiền di động Việt Nam trong năm 2026.