Cuộc chiến mô hình tạo video AI đã khởi đầu thế nào?

Ngày 15.12.2024 sẽ mãi mãi được ghi vào lịch sử ngành công nghệ như một ngày định mệnh đối với kỷ nguyên của mô hình tạo video AI.

Đó là khi OpenAI bất ngờ công bố Sora, mô hình chuyển văn bản thành video (text-to-video) với đoạn clip một người phụ nữ sải bước trên đường phố Tokyo dưới ánh đèn neon phản chiếu qua vũng nước, cả thế giới đã nín thở. Không còn là những thước phim méo mó, giật cục hay những khuôn mặt biến dạng thường thấy của AI thế hệ trước, Sora mang đến một sự nhất quán đáng kinh ngạc về ánh sáng, chuyển động và thậm chí là cảm xúc.

Vào thời điểm đó, Thung lũng Silicon dường như đã tuyên bố chiến thắng tuyệt đối, nắm giữ trong tay "chén thánh" của Hollywood 2.0. Ở bên kia bán cầu, giới công nghệ Trung Quốc rơi vào trạng thái im lặng đáng sợ. Không có sản phẩm đối trọng, không có những tuyên bố hùng hồn thường thấy. Nhiều chuyên gia phương Tây vội vã kết luận rằng Trung Quốc đã bị bỏ lại phía sau ít nhất 2 năm trong cuộc đua này. Nhưng lịch sử công nghệ đã chứng minh, sự im lặng của "Rồng" thường là dấu hiệu của một quá trình tích tụ năng lượng trước khi bùng nổ.

Kỷ nguyên tiền Sora: Sân chơi độc diễn của các Startup Mỹ

Trước khi Sora xuất hiện, bản đồ AI Video thế giới là sân chơi riêng của các startup Mỹ, dù quy mô còn khá khiêm tốn và manh mún. Cuối năm 2023, cái tên được nhắc đến nhiều nhất là Runway (với Gen-1 và Gen-2) và Pika Labs.

Runway, một startup có trụ sở tại New York, đã định hình những khái niệm đầu tiên về việc làm phim bằng AI. Họ cung cấp cho người dùng khả năng biến những dòng lệnh (prompt) thành những đoạn clip ngắn 3-4 giây. Dù mang tính đột phá, nhưng sản phẩm của thời kỳ này, mà chúng ta tạm gọi là "AI Video 1.0" chứa đầy khiếm khuyết. Các nhân vật thường xuyên bị biến dạng (morphing) khi di chuyển, hậu cảnh (background) không ổn định, và quy luật vật lý dường như không tồn tại. Một chiếc cốc rơi xuống đất có thể biến thành một vũng nước hoặc bay ngược lên trời.

Trong khi đó, Trung Quốc ở giai đoạn này (cuối 2023 - đầu 2024) đang bị cuốn vào một cuộc chiến khác: cuộc chiến Mô hình Ngôn ngữ Lớn (LLM). Sau cú sốc ChatGPT, toàn bộ nguồn lực của các gã khổng lồ như Baidu (với Ernie Bot), Alibaba (Tongyi Qianwen) hay các startup như 01.AI đều dồn vào việc tạo ra một "ChatGPT phiên bản Trung". Video AI chỉ được xem là một "nhiệm vụ phụ" (side quest).

Dù cũng có những nỗ lực như Animate Anyone của Alibaba (chuyên làm video nhảy từ ảnh tĩnh) hay MagicVideo của ByteDance, nhưng chúng chủ yếu giải quyết các bài toán hẹp, phục vụ cho thương mại điện tử hoặc giải trí trên mạng xã hội, chứ chưa chạm tới ngưỡng tạo ra một thế giới ảo hoàn chỉnh. Tư duy của Trung Quốc lúc bấy giờ vẫn là: "Làm chủ ngôn ngữ trước, hình ảnh tính sau". Chính sự lệch pha trong chiến lược này đã khiến họ hoàn toàn bị động khi OpenAI tung ra đòn đánh quyết định.

Cú nổ Big Bang mang tên Sora: Khi thuật toán thấu hiểu định luật Newton

Sự xuất hiện của Sora không đơn thuần là một bản cập nhật phần mềm; nó là một sự thay đổi về kiến trúc (paradigm shift).

Trước Sora, các mô hình video chủ yếu dựa trên kỹ thuật Diffusion (Khuếch tán) thuần túy, tức là tạo ra hình ảnh từ nhiễu (noise) từng khung hình một. Cách này tốt cho ảnh tĩnh (như Midjourney), nhưng cực tệ cho video vì AI không "nhớ" được khung hình trước đó trông như thế nào, dẫn đến video bị rung lắc và thiếu nhất quán.

OpenAI đã thay đổi cuộc chơi bằng cách kết hợp Diffusion với Transformer (kiến trúc đứng sau ChatGPT), tạo ra cái gọi là DiT (Diffusion Transformer). Hãy tưởng tượng: thay vì xử lý video như một tập hợp các bức ảnh rời rạc, Sora chia nhỏ video thành các khối không gian - thời gian (spacetime patches), giống như cách ChatGPT chia văn bản thành các token. Nhờ Transformer, Sora có khả năng "tư duy" và xâu chuỗi dữ liệu, giúp nó hiểu được bối cảnh dài hạn.

Kết quả là những thước phim dài tới 60 giây (so với 4 giây của đối thủ), nơi camera có thể quay 360 độ quanh nhân vật mà khuôn mặt không bị biến dạng, bóng đổ chính xác theo hướng nắng, và hình ảnh phản chiếu trong gương tuân thủ đúng quang học. Tyler Perry, ông trùm truyền thông Mỹ, sau khi xem demo của Sora đã tuyên bố hoãn kế hoạch mở rộng xưởng phim trị giá 800 triệu USD vì nhận thấy tương lai của phim trường vật lý đang bị đe dọa.

Sora không chỉ là một công cụ tạo video; nó được OpenAI định nghĩa là một "World Simulator" (Trình mô phỏng thế giới). Nó chứng minh rằng nếu có đủ dữ liệu và năng lực tính toán, AI có thể học và mô phỏng lại các định luật vật lý của thế giới thực mà không cần lập trình 3D thủ công. Mỹ, một lần nữa, khẳng định vị thế "ngọn hải đăng" dẫn dắt công nghệ toàn cầu.

"Khoảnh khắc Sputnik" tại Trung Quan Thôn: Gáo nước lạnh và nỗi sợ bị bỏ lại

Nếu Thung lũng Silicon hân hoan mở tiệc, thì bầu không khí tại Trung Quan Thôn (Zhongguancun - được mệnh danh là Thung lũng Silicon của Bắc Kinh) lại trĩu nặng sự lo âu.

Chu Hồng Y (Zhou Hongyi), người sáng lập 360 Security và là một tiếng nói có trọng lượng trong giới công nghệ Trung Quốc, đã không ngần ngại thốt lên: "Sora giống như một gáo nước lạnh tát vào mặt chúng ta. Khoảng cách giữa AI Trung Quốc và Mỹ không phải là đang thu hẹp lại, mà có nguy cơ bị nới rộng ra". Ông thậm chí còn cay đắng nhận định rằng nếu Mỹ đi theo hướng mô phỏng thế giới, còn Trung Quốc chỉ loay hoay với các ứng dụng giải trí ngắn hạn, thì Trung Quốc sẽ thua trong cuộc đua tiến tới AGI (Trí tuệ nhân tạo tổng quát).

Nỗi sợ hãi này không phải vô căn cứ. Nó cộng hưởng với một nỗi đau âm ỉ khác: Lệnh cấm vận chip bán dẫn.

Việc huấn luyện các mô hình Video AI đòi hỏi năng lực tính toán (Compute) lớn gấp hàng chục lần so với văn bản. Để tạo ra Sora, OpenAI được cho là đã sử dụng hàng chục ngàn chip NVIDIA H100 – thứ "vàng đen" của kỷ nguyên AI mà các công ty Trung Quốc bị Mỹ cấm tiếp cận. Phải làm thế nào để đuổi theo đối thủ khi vũ khí trong tay chỉ là những con chip đời cũ hoặc chip nội địa Huawei Ascend với hệ sinh thái phần mềm chưa hoàn thiện?

Cảm giác về một "Khoảnh khắc Sputnik" (thời điểm Mỹ nhận ra Liên Xô phóng vệ tinh trước và hoảng loạn) đã bao trùm giới công nghệ Trung Quốc. Nhưng chính trong sự hoảng loạn đó, bản năng sinh tồn trỗi dậy. Một mệnh lệnh ngầm được lan truyền trong các phòng Lab của Tencent, ByteDance và Đại học Thanh Hoa: Bằng mọi giá, phải giải mã được kiến trúc của Sora.

Cuộc đua giải mã trong bóng tối: Từ mổ xẻ DiT đến cơn khát "Vua của các loại dữ liệu"

Ngay sau khi OpenAI công bố báo cáo kỹ thuật (technical report) của Sora – một báo cáo khá sơ sài và giấu nhẹm các thông số quan trọng – các nhóm nghiên cứu tinh nhuệ nhất Trung Quốc đã bắt tay vào việc. Họ gọi đây là chiến dịch "Reverse Engineering" (Kỹ thuật đảo ngược).

Tâm điểm của sự chú ý dồn về bài báo khoa học "Scalable Diffusion Models with Transformers" của William Peebles (đồng tác giả Sora) và Saining Xie. Các kỹ sư Trung Quốc tại Vidu (thuộc ShengShu Technology) và đội ngũ AI của Kuaishou (công ty mẹ của Kling) bắt đầu mổ xẻ kiến trúc DiT. Họ nhận ra rằng, dù thua thiệt về phần cứng, họ lại sở hữu một tài sản mà Mỹ thèm khát: Dữ liệu Video thực tế.

Nếu OpenAI phải cạo dữ liệu từ YouTube hay mua bản quyền từ Shutterstock, thì các công ty Trung Quốc như ByteDance (TikTok/Douyin) và Kuaishou đang ngồi trên mỏ vàng dữ liệu lớn nhất hành tinh. Hàng tỷ video ngắn ghi lại mọi ngóc ngách của đời sống, từ cách một người ăn mì, cách gió thổi qua cánh đồng lúa, đến những biểu cảm vi mô của con người, đều nằm trong máy chủ của họ. Đây chính là nguyên liệu thô hoàn hảo để dạy cho AI hiểu về vật lý và chuyển động con người.

Chiến lược "Lấy cần cù bù công nghệ" và "Tối ưu hóa đến từng dòng code" được kích hoạt. Thay vì chạy đua brute-force (dùng sức mạnh phần cứng thô) như Mỹ, Trung Quốc tập trung tối ưu thuật toán để chạy hiệu quả trên nguồn tài nguyên hạn chế. Một cuộc dịch chuyển âm thầm nhưng quyết liệt diễn ra: nhân sự từ các dự án LLM được điều chuyển sang mảng Video Generation. Các liên minh giữa Viện hàn lâm (Đại học Thanh Hoa, Đại học Bắc Kinh) và Doanh nghiệp (Shengshu, MiniMax) được thiết lập để chia sẻ tài nguyên tính toán.

Lỗ hổng của người dẫn đầu: Sự thận trọng hay kiêu ngạo của OpenAI?

Trong khi Trung Quốc đang ráo riết chuẩn bị cho cuộc phản công, thì OpenAI lại vô tình tạo ra một "khoảng trống quyền lực". Dù Sora gây chấn động vào tháng 2/2024, nhưng OpenAI kiên quyết không phát hành đại chúng (public release).

Lý do được đưa ra là họ cần thời gian cho "Red Teaming" – kiểm tra an toàn để ngăn chặn Deepfake, tin giả và các nội dung bạo lực, nhất là trong bối cảnh năm bầu cử tại Mỹ. Ngoài ra, OpenAI còn bận rộn chào mời Hollywood, biến Sora thành một công cụ B2B (doanh nghiệp với doanh nghiệp) cao cấp thay vì một sản phẩm cho người dùng phổ thông.

Sora trở thành một "sản phẩm bóng ma" (Phantom Product) – ai cũng biết, ai cũng thèm muốn, nhưng không ai được chạm vào. Cộng đồng sáng tạo nội dung toàn cầu rơi vào trạng thái "đói thuốc". Họ đã chán ngấy những video 4 giây méo mó của Runway Gen-2, họ muốn thứ gì đó mạnh mẽ như Sora ngay lập tức.

Chính sự thận trọng (hoặc có thể là sự kiêu ngạo của kẻ dẫn đầu) của OpenAI đã mở ra một cánh cửa hẹp cho đối thủ. Thung lũng Silicon đã đánh giá thấp tốc độ "thực thi" (execution) của người Trung Quốc. Họ nghĩ rằng với rào cản chip, Trung Quốc sẽ mất nhiều năm mới đuổi kịp. Nhưng họ đã lầm.

Và khi mùa hè năm 2024 đến, sự im lặng của phương Đông bất ngờ bị phá vỡ. Không phải một bản sao lỗi, mà là một loạt các "siêu phẩm" thương mại được tung ra thị trường, cho phép bất kỳ ai cũng có thể tạo ra những video chuẩn điện ảnh 1080p ngay trên trình duyệt web. Cú lật kèo ngoạn mục bắt đầu và thế giới chợt nhận ra: Trong khi Mỹ đang bận giữ gìn "chiếc chén thánh" trong tủ kính, Trung Quốc đã bắt đầu rót rượu mời cả thế giới cùng uống.

Bùi Tú

Nguồn Một Thế Giới: https://1thegioi.vn/cuoc-chien-mo-hinh-tao-video-ai-da-khoi-dau-the-nao-242878.html