Trí tuệ nhân tạo: DeepSeek tiên phong phát triển mô hình AI lập luận toán học có khả năng tự kiểm chứng

Ngày 28/11, công ty trí tuệ nhân tạo (AI) DeepSeek của Trung Quốc công bố mô hình AI DeepSeekMath-V2, được đánh giá là bước tiến đột phá trong lĩnh vực suy luận toán học của AI, thiết lập chuẩn hiệu suất mới và mở rộng giới hạn năng lực giải quyết vấn đề bằng máy học.

Biểu tượng mô hình trí tuệ nhân tạo Deepseek. Ảnh: REUTERS/TTXVN

DeepSeekMath-V2 được công khai mã nguồn trên hai nền tảng Hugging Face và GitHub. Mô hình tích hợp một khung tự xác minh nhằm kiểm tra tính hợp lý của chuỗi lập luận, bên cạnh việc tạo ra đáp án chính xác, điều mà nhiều mô hình AI hiện nay vẫn gặp hạn chế.

Kết quả đánh giá cho thấy DeepSeekMath-V2 đạt mức huy chương vàng tại Olympic Toán học quốc tế (IMO) 2025 và Olympic Toán học Trung Quốc (CMO) 2024. Đặc biệt, mô hình đạt 118/120 điểm trong kỳ thi Putnam 2024, vượt xa mức 90 điểm, kỷ lục cao nhất từng được con người thực hiện.

Năng lực suy luận logic của mô hình được kiểm tra bằng hệ thống IMO-ProofBench, bộ đánh giá chuyên dụng dùng để xác minh độ chính xác lập luận của các mô hình AI. DeepSeekMath-V2 thể hiện hiệu suất vượt trội so với nhiều mô hình tiên tiến khác, bao gồm DeepThink của DeepMind.
IMO-ProofBench vận hành theo cơ chế kiểm tra chéo: một mô hình đảm nhiệm vai trò “chứng minh”, tạo ra chuỗi lập luận toán học, trong khi mô hình còn lại giữ vai trò “thẩm định”, đánh giá mức độ chặt chẽ của lập luận. Cơ chế này cho phép phát hiện sai sót trong tư duy của mô hình, điểm yếu cố hữu của các hệ thống AI đương đại.

Theo nhóm phát triển, phương pháp tự kiểm chứng của DeepSeekMath-V2 giúp giải quyết hạn chế lớn nhất của các mô hình AI hiện nay: khả năng tạo ra câu trả lời đúng nhưng dựa trên lập luận sai hoặc không nhất quán.

DeepSeek nhận định những tiến bộ này cho thấy hướng tiếp cận "suy luận toán học tự xác minh" có tiềm năng trở thành nền tảng cốt lõi cho thế hệ AI toán học mạnh mẽ, đáng tin cậy và minh bạch hơn trong tương lai.

Đức Việt (TTXVN)