TurboDiffusion tăng tốc tạo video bằng AI gấp 200 lần, không giảm chất lượng
TurboDiffusion được kỳ vọng sẽ giúp tạo video ở quy mô thương mại với chi phí thấp hơn và tốc độ nhanh hơn.
Kỹ thuật mới mang tên TurboDiffusion được cho có thể giúp tăng tốc độ tạo video bằng AI (trí tuệ nhân tạo) lên gấp 200 lần ở quy mô lớn mà không làm suy giảm chất lượng hình ảnh tổng thể, theo một bài báo khoa học vừa được công bố.
TurboDiffusion đã rút ngắn thời gian tạo một đoạn video 5 giây độ phân giải tiêu chuẩn từ hơn 3 phút xuống chỉ còn 1,9 giây, nhanh hơn gần 100 lần, khi thử nghiệm trên hệ thống tiêu dùng sử dụng bộ xử lý đồ họa (GPU) Nvidia RTX 5090, theo nghiên cứu của các nhà khoa học đến từ Đại học Thanh Hoa (Trung Quốc), công ty Shengshu Technology và Đại học California - Berkeley (Mỹ).
Ở thí nghiệm khác được nêu trong bài viết, thời gian tạo một video 5 giây độ phân giải cao (HD) trên cùng cấu hình máy đã giảm từ gần 80 phút xuống còn 24 giây, tức nhanh hơn khoảng 200 lần.
Hiện nay, người dùng cần từ 3 đến 5 phút để tạo một video 5 giây tiêu chuẩn trên nền tảng Vidu của Shengshu Technology. OpenAI từng cho biết mô hình chuyển văn bản thành video Sora của họ cần vài phút để dựng xong một video ngắn.
TurboDiffusion cho thấy những bước tiến rất nhanh của các nhà nghiên cứu Trung Quốc trong lĩnh vực công nghệ tạo video bằng AI kể từ khi OpenAI giới thiệu Sora vào tháng 2.2024.

Các nhà nghiên cứu Trung Quốc cho rằng tốc độ tạo video nhanh chóng thông qua TurboDiffusion là nhờ sự đổi mới trong huấn luyện mô hình AI - Ảnh: Shutterstock
Việc tăng tốc quá trình tạo video đánh dấu sự thay đổi quan trọng, bởi các mô hình AI sẽ không còn là khâu chậm nhất, làm ảnh hưởng đến toàn bộ quá trình sản xuất nội dung, theo nhà phân tích ngành Kyon Xu.
Các nhà nghiên cứu cho rằng tốc độ tạo video được cải thiện là nhờ những đổi mới trong huấn luyện mô hình AI, gồm việc sử dụng cơ chế chú ý tuyến tính thưa (SLA). SLA cho phép mô hình AI chỉ tập trung vào những phần dữ liệu quan trọng nhất thay vì xử lý toàn bộ cùng lúc. Cách tiếp cận này giúp giảm đáng kể thời gian xử lý và chi phí tính toán.
“TurboDiffusion báo hiệu sự chuyển dịch từ ‘có thể tạo được’ sang ‘có thể tạo gần như tức thì’, mở ra khả năng tạo video AI theo thời gian thực cho nhiều ngành công nghiệp”, AI Native Foundation, tổ chức thúc đẩy việc tích hợp AI một cách bao trùm và công bằng trong nhiều lĩnh vực, viết trên mạng xã hội X hôm 27.12.
Theo AI Native Foundation, TurboDiffusion sẽ giúp các doanh nghiệp thực hiện sản xuất video ở quy mô thương mại với chi phí thấp hơn và tốc độ lặp lại nhanh hơn.
Nhóm nghiên cứu cho rằng TurboDiffusion “cung cấp một chuẩn mực mã nguồn mở, tiên tiến cho việc tạo video nhanh với độ trung thực cao”, đồng thời cũng rất phù hợp cho nhà phát triển xây dựng các ứng dụng tương tác và thời gian thực.
TurboDiffusion hiện được mã nguồn mở và chia sẻ trên nền tảng GitHub dưới giấy phép Apache 2.0, cho phép cả dùng thương mại và phi thương mại.
Bất kỳ nhà nghiên cứu, công ty hay lập trình viên nào cũng có thể tiếp cận TurboDiffusion, thử nghiệm, cải tiến hoặc tích hợp vào sản phẩm của mình mà không cần xin phép riêng.
Thuộc sở hữu của Microsoft, GitHub là nền tảng trực tuyến để lưu trữ, chia sẻ và cùng phát triển mã nguồn phần mềm.
Các kỹ thuật chính trong TurboDiffusion
TurboDiffusion đạt được tốc độ cao nhờ kết hợp nhiều cải tiến kỹ thuật:
- SLA tối ưu hóa cơ chế chú ý, giúp mô hình AI hoạt động nhanh hơn, đặc biệt khi chỉ cần tập trung vào phần quan trọng của dữ liệu, bỏ qua phần không cần thiết, nhờ đó giảm bớt các phép tính phức tạp.
- Giảm số bước tính toán của mô hình diffusion từ khoảng vài chục bước xuống chỉ còn 3 - 4 bước mà vẫn giữ chất lượng video. Mô hình diffusion được dùng để tạo hình ảnh hoặc video bằng cách “khử nhiễu” dần dần.
- Nén các tham số mô hình và hoạt động xuống 8-bit (thay vì 16-bit hoặc 32-bit), giảm mức tiêu thụ bộ nhớ và tăng tốc tính toán trong các lớp tuyến tính.
Những kỹ thuật trên vừa giảm số phép tính, vừa tận dụng tối ưu phần cứng GPU để xử lý nhanh hơn nhiều so với cách truyền thống.
Thông tin đáng chú ý về Shengshu Technology và Vidu
Shengshu Technology là công ty khởi nghiệp Trung Quốc chuyên phát triển các mô hình AI tạo sinh đa phương thức, đặc biệt trong lĩnh vực tạo video từ văn bản và hình ảnh.
Được thành lập vào tháng 3.2023 và có trụ sở tại thủ đô Bắc Kinh, Shengshu Technology nhanh chóng nổi lên như một trong những công ty khởi nghiệp video AI đáng chú ý nhất tại Trung Quốc.
Sản phẩm chủ lực của Shengshu Technology là Vidu, nền tảng AI cho phép người dùng tạo video ngắn từ mô tả văn bản hoặc từ hình ảnh tham chiếu. Vidu được xem là đối thủ trực tiếp của Sora.
Theo Shengshu Technology, Vidu có thể tạo video AI nhanh hơn ở các phiên bản mới, phục vụ cả người dùng cá nhân lẫn doanh nghiệp thông qua nền tảng web và API (giao diện lập trình ứng dụng).
Video AI được tạo bằng Vidu
Trong thời gian ngắn sau khi ra mắt, Vidu đã thu hút hàng triệu người dùng, được ứng dụng trong nhiều lĩnh vực như quảng cáo, tiếp thị, giải trí, sản xuất nội dung số và du lịch văn hóa. Shengshu Technology cũng liên tục nâng cấp Vidu nhằm cải thiện chất lượng hình ảnh, độ nhất quán của nhân vật và cảnh quay, cũng như khả năng xử lý nhiều đối tượng trong cùng một video.
Về công nghệ, Shengshu Technology tập trung phát triển các kiến trúc mô hình video tiên tiến kết hợp giữa diffusion và Transformer, đồng thời đẩy mạnh nghiên cứu tối ưu hóa hiệu năng.
Nhờ những bước tiến nhanh chóng trong công nghệ tạo video AI, Shengshu Technology đã được Diễn đàn Kinh tế Thế giới (WEF) lựa chọn là Technology Pioneer 2025, danh hiệu dành cho các hãng công nghệ trẻ có tiềm năng tạo ra tác động lớn trên quy mô toàn cầu.
Hiện nay, Shengshu Technology được xem là một trong những đại diện tiêu biểu cho làn sóng AI tạo sinh mới của Trung Quốc, cạnh tranh trực tiếp với các hãng công nghệ hàng đầu thế giới ở lĩnh vực video AI.













