Bí kíp giúp AI xử lý văn bản dài của DeepSeek bị các nhà nghiên cứu hoài nghi

3 giờ trước Gốc

Các nhà nghiên cứu lưu ý nhiều mô hình AI phải đối mặt với một hạn chế nghiêm trọng ở khả năng xử lý văn bản dài.

Nhóm các nhà nghiên cứu từ Trung Quốc và Nhật Bản đã đặt câu hỏi về phương pháp mà DeepSeek công bố vài tháng trước, được thiết kế để cải thiện khả năng xử lý các đoạn văn bản dài của AI. Đây là trường hợp hiếm hoi nghiên cứu của công ty khởi nghiệp AI Trung Quốc nổi tiếng này bị đặt câu hỏi công khai.

Phương pháp DeepSeek-OCR thực tế vẫn tồn tại nhiều hạn chế do hiệu năng không ổn định, theo các nhà nghiên cứu từ Đại học Tohoku (Nhật Bản) và Viện Hàn lâm Khoa học Trung Quốc.

DeepSeek-OCR vốn được thiết kế để nén văn bản bằng cách chuyển nội dung sang dạng biểu diễn thị giác, với kỳ vọng sẽ thay đổi cách các mô hình AI xử lý văn bản dài.

Trong bài viết của mình, nhóm nghiên cứu phát hiện ra rằng phương pháp DeepSeek-OCR phụ thuộc rất nhiều vào kiến thức ngôn ngữ có sẵn, tức là xu hướng mô hình AI dựa vào các mẫu học được từ khối lượng lớn văn bản thay vì khả năng hiểu hình ảnh như DeepSeek tuyên bố. Điều đó khiến các chỉ số hiệu năng do DeepSeek công bố trở nên gây hiểu lầm.

Các nhà nghiên cứu lưu ý nhiều mô hình AI phải đối mặt với hạn chế nghiêm trọng được gọi là điểm tắc nghẽn trong ngữ cảnh dài, tức hạn chế khả năng xử lý các tài liệu và cuộc hội thoại dài.

Việc cải thiện năng lực này, vốn có thể tạo ra bước nhảy vọt về hiệu suất cho hệ thống AI, đang được các công ty và viện nghiên cứu trên thế giới theo đuổi.

Phương pháp DeepSeek-OCR thực tế vẫn tồn tại nhiều hạn chế do hiệu năng không ổn định - Ảnh: Tân Hoa Xã

Trình làng vào tháng 10.2025, DeepSeek-OCR được cho có thể xử lý các tài liệu dài và phức tạp bằng cách sử dụng nhận thức thị giác như một phương tiện nén. Tại thời điểm đó, DeepSeek cho rằng việc nén ngữ cảnh bằng thị giác (chuyển văn bản dài sang dạng biểu diễn hình ảnh để AI xử lý) có thể giảm rất mạnh lượng token cần dùng, từ 7 đến 20 lần, qua đó mở ra hướng đi đầy hứa hẹn để giải quyết vấn đề xử lý ngữ cảnh dài trong AI.

Song trong hàng loạt thí nghiệm được thiết kế cẩn thận, nghiên cứu mới cho thấy độ chính xác trả lời câu hỏi dựa trên hình ảnh của DeepSeek-OCR giảm xuống khoảng 20% khi được cung cấp thêm văn bản để tác động đến lập luận của nó. Trong khi đó, mô hình AI thông thường vẫn đạt độ chính xác trên 90%.

Các nhà nghiên cứu cho biết khoảng cách này “cuối cùng đặt ra câu hỏi liệu phương pháp nén quang học hiện tại có phải là con đường khả thi để giải quyết những hạn chế về ngữ cảnh dài của các mô hình AI hay không” và đề xuất rằng có thể cần các chiến lược thay thế.

DeepSeek không trả lời ngay lập tức đề nghị bình luận về vấn đề này.

"Con dao hai lưỡi"

Một số nhà khoa học máy tính mô tả DeepSeek-OCR giống "con dao hai lưỡi" hơn là chỉ mắc lỗi cơ bản, vì không có giải pháp thần kỳ nào cho mọi tình huống.

Li Bojie, tiến sĩ khoa học máy tính tại Đại học Khoa học và Công nghệ Trung Quốc, đang điều hành công ty khởi nghiệp AI của riêng mình ở thủ đô Bắc Kinh, cho rằng trong những trường hợp văn bản gốc mờ, nhòe hoặc khó đọc, AI có thể dùng kinh nghiệm và các mẫu ngôn ngữ đã học để suy đoán nội dung. Thế nhưng, nếu văn bản được in rõ ràng, dễ đọc thì việc suy đoán dựa trên kiến thức có sẵn lại không cần thiết và thậm chí có thể làm AI hiểu sai, khiến kết quả kém chính xác hơn.

"Có thể nói phương pháp này vừa có ưu điểm vừa có nhược điểm", Li Bojie nói.

Một năm trước, DeepSeek gây chấn động Thung lũng Silicon khi phát hành mô hình suy luận R1 có hiệu năng ngang các sản phẩm Mỹ, với chi phí huấn luyện nhỏ hơn rất nhiều. Theo lời Tổng thống Donald Trump, R1 là một “lời cảnh tỉnh” với ngành công nghệ Mỹ.

Hồi tháng 9.2025, DeepSeek gây sốc khi tiết lộ R1 có chi phí huấn luyện chỉ 294.000 USD và sử dụng 512 GPU Nvidia H800. Đây không phải là loại chip AI hàng đầu của Nvidia, ban đầu được phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

DeepSeek được cho đang lên kế hoạch tung ra mô hình V4 vào khoảng giữa tháng 2, và nếu các thử nghiệm nội bộ là chính xác thì các công ty AI ở Thung lũng Silicon nên lo lắng.

Công ty khởi nghiệp AI đặt trụ sở tại thành phố Hàng Châu có thể nhắm tới mốc phát hành V4 vào khoảng ngày 17.2, đúng dịp Tết Nguyên đán, với một phiên bản được thiết kế chuyên biệt cho tác vụ lập trình, theo nguồn tin của trang The Information.

Những người có hiểu biết trực tiếp về dự án cho biết V4 vượt trội cả Claude của Anthropic lẫn GPT của OpenAI trong các bài kiểm tra về lập trình nội bộ, đặc biệt khi xử lý các prompt (câu lệnh) chứa mã cực dài.

Cuối năm 2025, DeepSeek bài nghiên cứu về Manifold-Constrained Hyper-Connections (mHC), với nhà sáng lập kiêm Giám đốc điều hành Lương Văn Phong là đồng tác giả. Bài viết này giới thiệu phương pháp huấn luyện mới nhằm giải quyết một vấn đề cốt lõi khi mở rộng quy mô mô hình ngôn ngữ lớn. Cụ thể là: Làm thế nào để mở rộng khả năng của mô hình mà không khiến nó trở nên không ổn định hoặc bị lỗi trong quá trình huấn luyện?

Các kiến trúc AI truyền thống buộc toàn bộ thông tin đi qua một lối hẹp duy nhất. mHC mở rộng lối đi đó thành nhiều luồng song song có thể trao đổi thông tin với nhau mà không làm sụp đổ quá trình huấn luyện mô hình ngôn ngữ lớn.

Wei Sun, nhà phân tích chính về AI tại hãng nghiên cứu thị trường công nghệ Counterpoint Research, gọi mHC là “đột phá đáng chú ý”. Theo bà, kỹ thuật này cho thấy DeepSeek có thể “vượt qua các nút thắt cổ chai về năng lực tính toán và mở khóa những bước nhảy vọt về trí tuệ”, ngay cả khi khả năng tiếp cận chip AI tiên tiến bị hạn chế bởi các biện pháp kiểm soát xuất khẩu của Mỹ.

Lian Jye Su, nhà phân tích trưởng tại hãng nghiên cứu thị trường công nghệ Omdia, nhận định việc DeepSeek sẵn sàng công bố phương pháp của mình cho thấy sự tự tin mới trong ngành AI Trung Quốc.

Sơn Vân

Trí tuệ nhân tạo

Nguồn Một Thế Giới: https://1thegioi.vn/bi-kip-giup-ai-xu-ly-van-ban-dai-cua-deepseek-bi-cac-nha-nghien-cuu-hoai-nghi-244967.html