DeepSeek-OCR đột phát thị giác máy tính đọc hiểu như con người
Mô hình AI mới của DeepSeek được huấn luyện trên tập dữ liệu khổng lồ gồm hàng chục triệu tài liệu ở 100 ngôn ngữ khác nhau.

Startup AI DeepSeek lại một lần nữa khiến thế giới công nghệ rung động khi ra mắt mô hình AI đa phương thức DeepSeek-OCR với khả năng sử dụng thị giác máy tính để "đọc" thông tin văn bản, giúp giảm đáng kể số lượng token cần xử lý mà vẫn giữ độ chính xác cao.

Token là đơn vị văn bản nhỏ nhất mà mô hình AI xử lý, và việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán khổng lồ. Thay vì xử lý văn bản theo cách đọc truyền thống, mô hình này chuyển đổi nội dung thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin.
Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không phải chịu chi phí tính toán tăng theo tỷ lệ thuận. Khả năng này cũng tương tự như việc đọc một trang sách của con người bằng cách nhìn vào toàn bộ đoạn văn hoặc trang sách thay vì đọc từng chữ.

Kết quả mà DeepSeek công bố thực sự ấn tượng khi mô hình có thể giảm số token từ 7 đến 20 lần so với phương pháp xử lý văn bản truyền thống, đây là bước tiến đầy hứa hẹn trong việc giải quyết thách thức về ngữ cảnh dài trong các mô hình ngôn ngữ lớn.

Hơn thế nữa, mô hình này không chỉ đọc chữ, mà còn hiểu bố cục, liên kết, cấu trúc, nghĩa là ngữ nghĩa của trang tài liệu đó, bao gồm cả bảng biểu và hình ảnh bên trong.

Động thái này phù hợp với triết lý mà DeepSeek đã theo đuổi qua hai mô hình mã nguồn mở đột phá V3 và R1: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng.
Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, động cơ cốt lõi duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao, đồng thời đạt được tỷ lệ nén mạnh mẽ.

Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình Mixture-of-Experts với 570 triệu tham số có nhiệm vụ tái tạo lại văn bản gốc.
Kiến trúc Mixture-of-Experts hoạt động theo nguyên lý phân chia mô hình thành các mạng con chuyên xử lý một tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất mà không cần kích hoạt toàn bộ mô hình.

Ngoài khả năng xử lý các tác vụ thị giác tiêu chuẩn, DeepSeek-OCR còn phân tích được nội dung trực quan có cấu trúc phức tạp như bảng biểu, công thức toán học và sơ đồ hình học, mở ra tiềm năng ứng dụng trong lĩnh vực tài chính và khoa học.
Theo các bài kiểm tra chuẩn mà công ty công bố, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt được độ chính xác giải mã lên tới 97%. Thậm chí khi tỷ lệ nén lên tới 20 lần, mô hình vẫn ghi nhận độ chính xác khoảng 60%, cho thấy khả năng bảo toàn thông tin mạnh mẽ ngay cả trong điều kiện nén cực cao.
Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR chính như GOT-OCR 2.0 và MinerU 2.0 trong khi sử dụng ít token hơn nhiều. Cụ thể, DeepSeek-OCR chỉ cần khoảng 100 token hình ảnh cho mỗi trang, trong khi GOT-OCR 2.0 cần 256 token và MinerU 2.0 cần tới 6.000 token.
Điểm nổi bật nhất của DeepSeek-OCR chính là tốc độ xử lý đáng kinh ngạc. Mô hình có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày trên hệ thống tính toán chỉ với một card đồ họa NVIDIA A100-40G. Con số này mở ra khả năng mở rộng quy mô chưa từng có cho việc tạo dữ liệu huấn luyện mô hình ngôn ngữ lớn.
Động thái mới nhất với DeepSeek-OCR một lần nữa khẳng định cam kết của công ty trong việc đẩy mạnh hiệu suất AI trong khi giảm thiểu chi phí. Việc nén quang học có thể coi là giải pháp cho bài toán ngữ cảnh dài của các mô hình ngôn ngữ lớn. Hãy tưởng tượng một tài liệu có một triệu token được thu gọn thành bản đồ trực quan chỉ 100.000 token, mở đường cho thế hệ mô hình AI tiếp theo xử lý tài liệu như vỏ não thị giác được tăng cường.
Các ứng dụng tiềm năng của công nghệ này rất rộng lớn. Phân tích tài liệu trực tiếp, OCR theo luồng cho khả năng tiếp cận, và dịch thuật thời gian thực với ngữ cảnh trực quan giờ đây trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một nâng cấp OCR thông thường mà là sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu, đánh dấu bước tiến quan trọng trong hành trình phát triển trí tuệ nhân tạo.
Dùng AI tạo giọng đọc tin tức như MC chuyên nghiệp.