Microsoft tăng tốc cuộc đua AI đa phương tiện
Microsoft AI (MAI), bộ phận nghiên cứu trí tuệ nhân tạo (AI) thuộc Tập đoàn Microsoft, vừa chính thức ra mắt bộ 3 mô hình AI đa phương tiện có khả năng khởi tạo văn bản, âm thanh và hình ảnh.

Biểu tượng Microsoft. Ảnh minh họa: AFP/TTXVN
Thông cáo báo chí của MAI cho biết, mô hình MAI-Transcribe-1 có thể chuyển đổi giọng nói thành văn bản trên 25 ngôn ngữ khác nhau với tốc độ xử lý nhanh gấp 2,5 lần so với dịch vụ Azure Accelerate của chính Microsoft. Điểm đặc biệt của mô hình này là có khả năng duy trì độ chính xác và ổn định bất kể sự khác biệt về chất giọng, phong cách nói hay trong môi trường nhiều tạp âm.
Ngược lại, mô hình MAI-Voice-1 là một công cụ chuyển đổi văn bản thành giọng nói, cho phép người dùng khởi tạo 60 giây âm thanh chỉ trong vòng 1 giây, đồng thời hỗ trợ thiết lập cá nhân hóa tùy chỉnh âm thanh riêng biệt. Điểm vượt trội của mô hình này nằm ở khả năng mô phỏng chính xác ngữ điệu, nhịp điệu và các sắc thái cảm xúc giống hệt con người, mang lại trải nghiệm tương tác sống động và chân thực.
Trong khi đó, MAI-Image-2- công cụ tạo hình ảnh- cho phép tạo video chất lượng cao thông qua các câu lệnh văn bản đơn giản. Thông qua mô hình này, người dùng có thể tạo ra những hình ảnh đa dạng, chất lượng cao và có độ tương thích chặt chẽ với văn bản đầu vào, nhờ đó sẽ đặc biệt phù hợp cho các tác vụ thiết kế hay sáng tạo nội dung.
Việc phát hành mô hình bộ 3 này cho thấy Microsoft đang quyết tâm tự phát triển hệ sinh thái AI đa phương tiện riêng, nhằm cạnh tranh trực tiếp với các phòng thí nghiệm AI khác.










