Việc tập trung vào dữ liệu tiếng Việt mã nguồn mở sẽ đảm bảo AI được phát triển tại Việt Nam không chỉ tiên tiến về công nghệ mà còn phù hợp với văn hóa, ngôn ngữ và nhu cầu của người dân trong nước.
Việc thiếu bộ dữ liệu tiếng Việt quy mô lớn để đào tạo mô hình trí tuệ nhân tạo (AI) khiến Việt Nam chưa thể phát huy hết tiềm năng phát triển trong lĩnh vực này.
Dữ liệu tiếng Việt để đào tạo các mô hình AI hiện chỉ chiếm tỷ lệ rất nhỏ. Dự án ViGen tạo ra những bộ dữ liệu chất lượng cao để nâng cao khả năng sử dụng tiếng Việt của AI, trợ lý ảo.
Dự án ViGen nằm trong chương trình 'Thách thức đổi mới sáng tạo Việt Nam 2025', hướng đến xây dựng bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao, đủ quy mô phục vụ đào tạo và đánh giá các mô hình AI hiện đại.
Llama (Large Language Model Meta AI), mô hình ngôn ngữ lớn được phát triển bởi Meta sẽ được chuẩn hóa tiếng Việt, hiểu hơn về văn hóa, bối cảnh và cách diễn đạt tiếng Việt.
Đưa tiếng Việt vào Trí tuệ nhân tạo (AI) một cách tự nhiên, chuẩn hóa tiếng Việt là mục tiêu để nâng cao hơn nữa tính ứng dụng của AI
Theo ông Võ Xuân Hoài, trí tuệ nhân tạo (AI) đang chuyển đổi thế giới. Chúng ta biến AI thành công cụ, đưa Việt Nam thành cường quốc AI toàn cầu.
Thủ tướng Chính phủ Phạm Minh Chính tham dự Diễn đàn 'Việt Nam chủ động phát triển ngành công nghiệp bán dẫn và trí tuệ nhân tạo trong kỷ nguyên mới'.