Chuyên gia đánh giá cao bộ tiêu chuẩn VMLU do người Việt phát triển

4 giờ trướcGốc

Là nền tảng đầu tiên do người Việt phát triển nhằm đánh giá năng lực tiếng Việt của LLM, VMLU đã nhận được đánh giá tích cực từ chuyên gia trong và ngoài nước sau 1 năm vận hành.

Chuyên gia đánh giá cao bộ tiêu chuẩn VMLU do người Việt phát triển

Ra mắt vào tháng 11/2023 bởi Zalo AI và Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST), VMLU đã mang tới một bộ tiêu chuẩn chung giúp các đơn vị phát triển mô hình ngôn ngữ lớn (gọi tắt là LLM) hướng tới người dùng Việt có căn cứ đánh giá và chiến lược huấn luyện mô hình phù hợp.

Sau 1 năm ra mắt và cung cấp miễn phí cho các đơn vị phát triển, mới đây trong Báo cáo Tình hình Phát triển LLM tiếng Việt công bố vào 10/01/2025 bởi Zalo AI, chuyên gia từ các tổ chức trong nước và quốc tế đã khẳng định vai trò quan trọng của VMLU đối với sự phát triển của AI nói chung và LLM tiếng Việt nói riêng. Đồng thời, cho thấy triển vọng phát triển sâu rộng của nền tảng này trong tương lai.

Theo TS. Bạch Hưng Nguyên - Principal Engineer (Kỹ sư trưởng) tại Microsoft, VMLU cho thấy sự hữu ích trong việc đánh giá hiệu suất của mô hình LLMs trên tiếng Việt, giúp các đơn vị phát triển hiểu rõ hơn về khả năng của mô hình trên QA task để cải thiện mô hình toàn diện hơn.

Nhận định của TS. Bạch Hưng Nguyên - Principal Engineer, Microsoft.

Đặc biệt, bộ tiêu chuẩn đánh giá VMLU cũng còn nhiều tiềm năng phát triển trong tương lai: “Trước tiên là khả năng nâng cao độ phức tạp của câu hỏi, độ đa dạng của dữ liệu và tính chính xác của label để đánh giá các mô hình chính xác hơn. Bên cạnh đó, phát triển thêm những task khác như reasoning, text generation, code generation, text summarization, và text classification nhằm đánh giá toàn diện các mô hình. Cuối cùng, phát triển Responsible AI để đảm bảo các mô hình có thể hoạt động đúng cách”, TS. Bạch Hưng Nguyên chia sẻ thêm.

Hiện bộ dữ liệu và tiêu chuẩn đánh giá VMLU bao gồm 10.880 câu hỏi, phủ rộng 58 chủ đề và 4 lĩnh vực bao gồm STEM, Khoa học Xã hội, Khoa học Nhân văn và mở rộng. Sau hơn 1 năm đưa vào vận hành, VMLU đã hỗ trợ đánh giá hàng loạt các mô hình theo độ khó tăng dần: tiểu học, trung học cơ sở, trung học phổ thông và chuyên nghiệp (Đại học & sau Đại học).

Tính riêng trong năm 2024, VMLU ghi nhận 3.729 lượt đánh giá LLM, 155 cá nhân và tổ chức gửi đánh giá về VMLU, công bố chính thức 45 LLM của các đơn vị phát triển trong nước và quốc tế.

Những dấu ấn của cộng đồng phát triển LLM tiếng Việt năm 2024.

GS. Nguyễn Hữu Thiện - Khoa Khoa học Máy tính - Đại học Oregon, đơn vị có mô hình LLM fine-tuned (LLM tinh chỉnh từ mô hình đã được huấn luyện trước) là Vistral-7B-Chat nằm trong Top 11 bảng xếp hạng VMLU Leaderboard, cho biết: “VMLU đóng vai trò quan trọng trong quá trình phát triển LLMs cho tiếng Việt của chúng tôi vì cho phép đánh giá toàn diện khả năng xử lý tiếng Việt và hiểu biết văn hóa Việt Nam của mô hình”.

Chia sẻ của GS. Nguyễn Hữu Thiện - Khoa Khoa học máy tính, ĐH Oregon.

“Dựa trên kết quả sử dụng và đánh giá mô hình, chúng tôi đã hoàn thiện và phát hành thành công Vistral-7B-Chat, một mô hình LLM mở dành riêng cho tiếng Việt, được cộng đồng người Việt đón nhận với hơn 100.000 lượt tải từ Hugging Face chỉ sau 7 tháng”, GS. Nguyễn Hữu Thiện chia sẻ thêm.

TS. Đặng Trần Thái, Trưởng phòng xử lý ngôn ngữ tự nhiên - Khối công nghệ trợ lý ảo VinBigData hiện có mô hình ViGPT-1.6B-v1 nằm trong Top 8 from-scratch models (các mô hình xây dựng từ đầu) có năng lực tiếng Việt vượt trội, cũng đánh giá cao VMLU.

“VMLU có dữ liệu tương đối hoàn chỉnh và toàn diện để đánh giá năng lực về tri thức của LLM cho tiếng Việt. VMLU không chỉ hữu ích để đánh giá chất lượng LLM ở từng giai đoạn phát triển, mà còn là thước đo cho tính hiệu quả của các thử nghiệm của chúng tôi trong quá trình huấn luyện.”

Đánh giá của TS. Đặng Trần Thái, Trưởng phòng xử lý ngôn ngữ tự nhiên, Khối công nghệ trợ lý ảo VinBigData.

Theo TS. Đặng Trần Thái, sự ra đời của VMLU là cần thiết đối với cộng đồng nghiên cứu AI: “Đây sẽ là “bàn đạp” để thúc đẩy sự phát triển của AI nói chung và LLM nói riêng, vì phải có những bộ benchmark tốt thì chúng ta mới có căn cứ huấn luyện những mô hình chất lượng cao.”

Tới nay, VMLU đã ghi nhận sự cải tiến liên tục với điểm số không ngừng gia tăng trên bảng xếp hạng của các mô hình do người Việt phát triển. Một số mô hình của các nhà phát triển Việt Nam đang trực tiếp cạnh tranh với những tên tuổi hàng đầu thế giới như Llama-3-70B (Meta), GPT-4 (OpenAI), gemma-2-9b-it (Google).

Tiêu biểu là mô hình KiLM-13b-v24.7.1 được phát triển bởi Zalo AI với vị trí số 2 trên bảng xếp hạng from-scratch models đạt điểm tổng quát trung bình 66,07 - chỉ xếp sau mô hình Llama-3-70B đầu bảng đạt 66,44 điểm của Meta. Một mô hình khác của người Việt cũng nằm trong Top 10 bảng xếp hạng này là ViGPT-1.6B-v1 do VinBigData phát triển, xếp ở vị trí thứ 8 với điểm tổng quát trung bình 42.34.

BXH From-scratch models (các mô hình xây dựng từ đầu) có năng lực tiếng Việt vượt trội.

Đối với bảng xếp hạng Fine-tuned models, 9/10 mô hình thuộc Top 10 là do các đơn vị AI trong nước như VNPT AI, Cake by VPBank, Zalo AI, Viettel Solutions, Trường ĐH Bách Khoa - ĐHQG TP.HCM… phát triển. Điều này cho thấy định hướng của các đơn vị nghiên cứu AI tại Việt Nam trong việc phát triển mô hình ngôn ngữ lớn hướng tới người dùng Việt.

BXH Fine-tuned models (LLM tinh chỉnh từ mô hình đã được huấn luyện trước).

Là đơn vị đi đầu trong việc thúc đẩy sự phát triển của cộng đồng AI, Viện Khoa học & Công nghệ Tiên tiến Nhật Bản (JAIST) đã đồng hành cùng Zalo AI trong quá trình xây dựng, vận hành VMLU.

Đánh giá về tình hình phát triển LLM tại Việt Nam, GS. Nguyễn Lê Minh - Giám đốc Trung tâm nghiên cứu Interpretable AI, Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST) cho biết: “Số lượng các mô hình ngôn ngữ lớn tại Việt Nam gia tăng đã cho thấy sự quan tâm của đông đảo các tổ chức, cá nhân đối với việc thúc đẩy tính ứng dụng của GenAI. Trong tương lai, tôi nghĩ rằng xu hướng phát triển LLM tại Việt Nam sẽ thiên về tận dụng những mô hình LLM mở như Llama. Từ đó chuyển đổi phù hợp với các bài toán và dữ liệu chuyên ngành".

GS. Nguyễn Lê Minh nhận định về xu hướng phát triển LLM tiếng Việt.

Hiện tại, bên cạnh các nhóm nghiên cứu trong nước, nhiều đơn vị nước ngoài cũng tối ưu LLM cho tiếng Việt. Các nhà phát triển quốc tế gửi đánh giá lên VMLU tiêu biểu như: UONLP x Ontocord - Trường ĐH Oregon (Hoa Kỳ), DAMO Academy – Alibaba Group (Trung Quốc), SDSRV teams – Samsung.

Đại diện Zalo AI - đơn vị phát triển VMLU, TS. Châu Thành Đức - Trưởng Bộ phận Nghiên cứu & Phát triển tại Zalo AI khẳng định: “Chúng tôi sẽ tiếp tục tối ưu bộ tiêu chuẩn đánh giá năng lực tiếng Việt VMLU để đồng hành cùng cộng đồng AI Việt Nam củng cố năng lực huấn luyện LLM. Zalo AI hy vọng rằng sự phát triển của tầng nghiên cứu sẽ tạo tiền đề cho những bước tiến của tầng ứng dụng với sự ra đời của ngày càng nhiều sản phẩm tiên tiến và hữu ích cho người Việt”.

TS. Châu Thành Đức chia sẻ về định hướng phát triển của nền tảng VMLU.

Trong thời gian tới, Zalo AI sẽ tiếp tục cung cấp VMLU miễn phí. Các nhà phát triển LLM tiếng Việt trong và ngoài nước có thể tìm hiểu thêm tại đây.

Xem và tải Báo cáo Tình hình Phát triển LLM tiếng Việt tại đây.

Vân Nguyễn, Trâm Lương

Nguồn Znews: https://znews.vn/chuyen-gia-danh-gia-cao-bo-tieu-chuan-vmlu-do-nguoi-viet-phat-trien-post1524985.html