Dự án ViGen tạo ra nền tảng dữ liệu tiếng Việt mã nguồn mở cho AI
Việc tập trung vào dữ liệu tiếng Việt mã nguồn mở sẽ đảm bảo AI được phát triển tại Việt Nam không chỉ tiên tiến về công nghệ mà còn phù hợp với văn hóa, ngôn ngữ và nhu cầu của người dân trong nước.

Dự án ViGen là kết quả của sự hợp tác ba bên giữa Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và tổ chức AI for Vietnam. (Ảnh: Vietnam+)
Ngày 14/3, Tập đoàn Meta, Hoa kỳ phối hợp cùng Trung tâm Đổi mới sáng tạo Quốc gia (NIC), Bộ Tài chính chính thức khởi động Chương trình Thách thức Đổi mới sáng tạo 2025.
Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs), giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt.
Bản địa hóa trí tuệ nhân tạo
Theo các chuyên gia công nghệ, đây là bước tiến quan trọng trong việc bản địa hóa trí tuệ nhân tạo (AI) tại Việt Nam.
Dự án ViGen là kết quả của sự hợp tác ba bên giữa Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và tổ chức AI for Vietnam. Trong đó, Trung tâm Đổi mới sáng tạo Quốc gia đóng vai trò là đơn vị chủ quản, điều phối và đảm bảo dự án phù hợp với các mục tiêu quốc gia. Bên cạnh đó, AI for Vietnam là đối tác triển khai dự án, nhận được hỗ trợ kỹ thuật và tài chính từ Tập đoàn Meta. Các đối tác chiến lược khác bao gồm NVIDIA, Viettel và Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Sứ mệnh của VIC 2025 - dự án ViGen là "làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khóa tiềm năng các ứng dụng AI tại Việt Nam." ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Dự án cũng chú trọng đến việc đảm bảo sự phát triển AI tại Việt Nam phù hợp với các giá trị văn hóa và tiêu chuẩn đạo đức, hướng tới xây dựng một hệ sinh thái AI mã nguồn mở, phù hợp với bối cảnh địa phương và có trách nhiệm.
Để hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở từ chương trình AI và Dữ liệu vì Lợi ích Cộng đồng của mình, bao gồm thông tin chi tiết về di chuyển, kết nối xã hội và dữ liệu đào tạo từ các bản đồ dân số được hỗ trợ bởi AI.
Giáo sư Yann LeCun, Phó chủ tịch kiêm Kiến trúc sư trưởng về Trí tuệ Nhân tạo của Tập đoàn Meta, một trong những "cha đẻ" của AI, đã bày tỏ sự kỳ vọng vào dự án ViGen và Thử thách Đổi mới Sáng tạo Việt Nam không chỉ nhằm thúc đẩy công nghệ, mà còn hướng tới xây dựng một tương lai AI toàn diện, tôn vinh và tích hợp di sản văn hóa và ngôn ngữ độc đáo của Việt Nam.
Sự kiện này đánh dấu năm thứ ba của chương trình trong việc tập trung thúc đẩy phát triển lĩnh vực AI thông qua dữ liệu tiếng Việt mã nguồn mở, một yếu tố then chốt để các mô hình AI hiểu sâu sắc hơn về văn hóa và ngôn ngữ Việt. Chương trình được triển khai từ năm 2022 và thu hút hơn 750 giải pháp từ hơn 20 quốc gia và vùng lãnh thổ, thể hiện sức hút và tầm quan trọng của việc phát triển AI tại Việt Nam. Đặc biệt, trong chuyến thăm của Tổng thống Biden tới Việt Nam năm 2023, Thách thức Đổi mới sáng tạo Việt Nam đã được Cổng thông tin Nhà Trắng (Hoa Kỳ) ca ngợi như một điểm sáng trong hợp tác công nghệ và đổi mới sáng tạo giữa hai quốc gia.
Nhấn mạnh tầm quan trọng của chương trình, Phó Thủ tướng Chính phủ Nguyễn Chí Dũng khẳng định thách thức Đổi mới sáng tạo Việt Nam là chương trình chiến lược để tìm kiếm các giải pháp đổi mới sáng tạo trên toàn thế giới nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững. Để chương trình thành công cần sự hợp tác giữa khu vực công, khu vực tư nhân và các đối tác trong và ngoài nước chung tay hình thành, thử nghiệm và thực thi các sáng kiến đổi mới sáng tạo vì một Việt Nam thịnh vượng.
Định hướng cho khu vực công
Bên cạnh Dự án ViGen, Meta và Deloitte cũng công bố cuốn cẩm nang dành cho khu vực công mang tên "Đổi mới sáng tạo trong khu vực công ở châu Á-Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama" tại sự kiện khai mạc Chương trình Thách thức Đổi mới sáng tạo.
Cụ thể, cẩm nang này sẽ cung cấp lộ trình giúp các cơ quan Chính phủ tích hợp hiệu quả công nghệ AI mã nguồn mở. Sự kết hợp giữa các sáng kiến này hướng đến mục tiêu xây dựng một chiến lược AI đồng bộ tại Việt Nam, mang lại lợi ích cho cả khu vực công và tư nhân.
Ông Sarim Aziz, Giám đốc Chính sách Công tại Meta, cho biết năm 2025 là một năm bản lề với tiến trình phát triển AI tại Việt Nam. Meta vinh dự được hợp tác cùng Trung tâm Đổi mới sáng tạo Quốc gia và Tổ chức AI for Vietnam Foundation với Dự án ViGen. Các nhà nghiên cứu, nhà phát triển và doanh nghiệp Việt Nam có thể tiếp cận những mô hình AI mã nguồn mở như Llama cùng các nguồn lực phù hợp với bối cảnh địa phương. Điều này sẽ giúp họ phát huy tối đa tiềm năng và thúc đẩy các sáng kiến AI mang tính ứng dụng cao, phù hợp với nhu cầu của Việt Nam.
Khẳng định AI đang chuyển đổi thế giới, ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia chia sẻ việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.
Ông Hoài cho biết dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Tuy nhiên, dự án ViGen đòi hỏi nỗ lực chung từ các nhà hoạch định chính sách, nhóm nghiên cứu, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng. Sự chung tay sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu.
Đại diện cho Tổ chức AI For Vietnam đã chính thức tham gia vào Liên minh AI toàn cầu, ông Trần Việt Hùng, Nhà sáng lập, Giám đốc điều hành của AI for Vietnam cho hay Việt Nam được chọn là quốc gia đầu tiên trong khu vực châu Á-Thái Bình Dương ra mắt cẩm nang này. Điều này giúp cung cấp các phương pháp tối ưu trong việc ứng dụng AI mã nguồn mở và đánh giá các ứng dụng thực tiễn của mô hình Llama trong các lĩnh vực quan trọng của khu vực công, bao gồm tương tác với người dân, quản lý hành chính công, tuân thủ chính sách, giáo dục, y tế và an ninh công cộng.
Cẩm nang giới thiệu hai ứng dụng thực tiễn đầy ấn tượng của mô hình Llama tại Việt Nam: Cụ thể, Bộ Khoa học và Công nghệ đã hợp tác cùng MISA để thử nghiệm một trợ lý ảo, giúp giảm 98% thời gian tra cứu thông tin cho cán bộ, từ đó tăng hiệu suất làm việc và tiết kiệm thời gian. Bên cạnh đó, Bộ Tư Pháp phối hợp cùng Viettel tận dụng Llama để triển khai trợ lý pháp lý ảo, giúp rút ngắn thời gian nghiên cứu văn bản pháp luật khoảng 30%.
Ông Chris Lewin, Giám đốc Năng lực AI & Dữ liệu khu vực châu Á - Thái Bình Dương, Deloitte, nhận định khi Châu Á-Thái Bình Dương trải qua quá trình chuyển đổi số mạnh mẽ, AI mã nguồn mở đang trở thành một động lực quan trọng trong việc định hình tương lai của lĩnh vực công. “Chúng tôi rất vui mừng được hợp tác cùng Meta để phát triển báo cáo trên, nhằm trang bị cho các cơ quan trong lĩnh vực này những đề xuất mang tính thực tiễn cao trong việc áp dụng AI thế hệ mới (Gen AI), dựa trên những nguyên tắc minh bạch và đáng tin cậy về AI," nói.
Sự ra mắt của Dự án ViGen và cẩm nang AI mã nguồn mở đánh dấu một bước tiến quan trọng trong việc xây dựng nền tảng vững chắc cho AI tại Việt Nam. Với sự hợp tác chặt chẽ giữa Chính phủ, doanh nghiệp và các tổ chức nghiên cứu, Việt Nam đang trên đường trở thành một trung tâm phát triển AI trong khu vực và trên thế giới. Trong đó, việc tập trung vào dữ liệu tiếng Việt mã nguồn mở sẽ đảm bảo AI được phát triển tại Việt Nam không chỉ tiên tiến về công nghệ mà còn phù hợp với văn hóa, ngôn ngữ và nhu cầu của người dân Việt Nam./.