Deepseek có đột phá mới
DeepSeek - startup AI đình đám - vừa công bố mô hình DeepSeek-OCR, một đột phá trong lĩnh vực xử lý tài liệu bằng trí tuệ nhân tạo. Mô hình đa phương thức này sử dụng nhận thức thị giác làm phương tiện nén thông tin, giúp xử lý các tài liệu lớn với số token ít hơn 7-20 lần so với phương pháp truyền thống.
Theo thông tin từ SCMP, DeepSeek-OCR đạt được thành tựu này bằng cách chuyển đổi nội dung văn bản thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin. Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không làm tăng chi phí tính toán theo tỷ lệ thuận. Điều này tương tự như việc con người đọc một trang sách bằng cách nhìn toàn bộ đoạn văn thay vì đọc từng chữ.

Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính: DeepEncoder và bộ giải mã DeepSeek3B-MoE-A570M. DeepEncoder hoạt động như công cụ cốt lõi, duy trì mức kích hoạt thấp dưới đầu vào có độ phân giải cao và đạt tỷ lệ nén mạnh. Bộ giải mã là mô hình Mixture-of-Experts với 570 triệu tham số, có nhiệm vụ tái tạo văn bản gốc. Kiến trúc MoE chia mô hình thành các mạng con chuyên xử lý tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất.

Mô hình này nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng. Ảnh minh họa
Kết quả thử nghiệm cho thấy, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt độ chính xác giải mã lên đến 97%. Ngay cả khi tỷ lệ nén lên tới 20 lần, mô hình vẫn giữ được độ chính xác khoảng 60%. Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội so với các mô hình OCR lớn như GOT-OCR 2.0 và MinerU 2.0, trong khi chỉ sử dụng khoảng 100 token hình ảnh cho mỗi trang.
Đột phá này không chỉ giúp tiết kiệm chi phí tính toán đáng kể mà còn mở ra tiềm năng ứng dụng rộng rãi trong các lĩnh vực như tài chính, khoa học, với khả năng phân tích nội dung trực quan phức tạp như bảng biểu, công thức toán học và sơ đồ hình học.