DeepSeek V3.1 ra mắt, fan vẫn mong chờ R2

14 giờ trước Gốc

Tối 19.8, DeepSeek lặng lẽ giới thiệu V3.1 - bản cập nhật cho mô hình trí tuệ nhân tạo V3.

Theo một bài đăng trên nhóm WeChat chính thức của DeepSeek, phiên bản V3.1 có cửa sổ ngữ cảnh dài hơn, nghĩa là xử lý được lượng thông tin lớn hơn cho bất kỳ truy vấn nào. Điều này có thể cho phép DeepSeek-V3.1 duy trì các cuộc trò chuyện dài hơn với khả năng ghi nhớ tốt hơn.

Công ty khởi nghiệp trí tuệ nhân tạo (AI) DeepSeek chưa cung cấp thông tin chi tiết về V3.1 và cũng chưa đăng tải tài liệu lên các nền tảng lớn, gồm cả Hugging Face.

Phiên bản trước đó của V3.1 là V3-0324, ra mắt cuối tháng 3, từng mang lại những cải thiện đáng kể về khả năng suy luận và lập trình.

Hugging Face là nền tảng phát triển AI nổi tiếng thế giới, đặc biệt tập trung vào xử lý ngôn ngữ tự nhiên và học máy. Học máy là lĩnh vực thuộc AI, tập trung vào việc nghiên cứu và phát triển các kỹ thuật cho phép hệ thống máy tính "học" tự động từ dữ liệu để giải quyết các vấn đề cụ thể, mà không cần phải được lập trình tường minh cho từng tác vụ.

Mức độ phổ biến của hai mô hình mã nguồn mở V3 (ra mắt tháng 12.2024) và R1 (trình làng tháng 1.2025) từ DeepSeek từng thách thức OpenAI, Google, Anthropic.

DeepSeek (có trụ sở tại thành phố Hàng Châu) chứng minh các công ty Trung Quốc có thể đạt được những bước tiến trong lĩnh vực AI với chi phí đào tạo mô hình thấp hơn rất nhiều các đối thủ Mỹ.

Mô hình suy luận R1 từng đạt hiệu suất ngang ngửa nhiều đối thủ phương Tây về các chỉ số và gây chấn động thế giới khi được công bố vào đầu năm nay.

V3.1 ra mắt tối 19.8 nhưng DeepSeek chưa cung cấp nhiều thông tin về phiên bản này - Ảnh: Internet

Fan mong chờ R2

Người hâm mộ DeepSeek vẫn đang chờ đợi sự ra mắt của R2, phiên bản nâng cấp R1. Truyền thông địa phương đổ lỗi cho sự tính toán cầu toàn của Lương Văn Phong (Giám đốc điều hành DeepSeek) là nguyên nhân gây ra sự chậm trễ này.

Thế nhưng, trang FT cho biết DeepSeek phải hoãn phát hành R2 sau khi không thể huấn luyện mô hình suy luận này bằng chip AI của gã khổng lồ công nghệ Huawei (Trung Quốc).

Sau khi ra mắt mô hình suy luận mã nguồn mở R1 vào tháng 1 và gây tiếng vang toàn cầu, DeepSeek đã được chính quyền Trung Quốc khuyến khích sử dụng chip AI Ascend của Huawei thay vì sản phẩm Nvidia, theo ba nguồn tin của FT am hiểu sự việc.

Tuy nhiên, DeepSeek gặp phải các vấn đề kỹ thuật kéo dài trong quá trình huấn luyện R2 bằng chip AI Ascend. Điều đó buộc công ty có trụ sở ở thành phố Hàng Châu phải dùng chip AI Nvidia cho giai đoạn huấn luyện và chip Huawei ở giai đoạn suy luận, các nguồn tin cho biết.

Theo một người am hiểu tình hình, những vấn đề này là lý do chính khiến việc ra mắt R2 bị lùi lại từ tháng 5, khiến DeepSeek mất lợi thế trước các đối thủ.

Huấn luyện là giai đoạn mô hình AI học từ một tập dữ liệu lớn. Suy luận là bước sử dụng mô hình AI đã được huấn luyện để đưa ra dự đoán hoặc tạo phản hồi, chẳng hạn trả lời câu hỏi thông qua chatbot.

Những khó khăn của DeepSeek cho thấy chip Trung Quốc vẫn tụt hậu so với đối thủ Mỹ, đặc biệt là Nvidia (hãng chip AI số 1 thế giới), ở các tác vụ quan trọng, phản ánh thách thức mà cường quốc châu Á phải đối mặt trong mục tiêu tự chủ công nghệ.

Tuần trước, Trung Quốc đã yêu cầu các hãng công nghệ nước này giải trình các đơn đặt hàng chip H20 của Nvidia, nhằm khuyến khích họ sử dụng sản phẩm thay thế của Huawei và Cambricon, FT đưa tin.

Theo giới chuyên gia trong ngành, chip Trung Quốc gặp vấn đề về độ ổn định, tốc độ kết nối giữa các chip chậm hơn và phần mềm kém hơn so với sản phẩm của Nvidia.

Không thể một lần huấn luyện R2 thành công trên chip Ascend"

Hai nguồn tin cho biết Huawei đã cử một nhóm kỹ sư tới văn phòng DeepSeek để hỗ trợ sử dụng chip AI của hãng nhằm phát triển R2. Song dù có đội hỗ trợ tại chỗ, DeepSeek vẫn không thể thực hiện thành công một lần huấn luyện R2 trên chip Ascend, theo FT.

Các nguồn tin của FT nói thêm rằng DeepSeek vẫn đang hợp tác với Huawei để giúp R2 tương thích với chip Ascend trong giai đoạn suy luận.

Những nguồn tin này cũng cho biết Lương Văn Phong đã bày tỏ sự không hài lòng với tiến độ của R2 và đang thúc ép nhân viên dành thêm thời gian để xây dựng một mô hình AI tiên tiến hơn, có thể duy trì vị thế hàng đầu của công ty trong lĩnh vực AI ở Trung Quốc.

Việc ra mắt R2 bị chậm lại còn do quá trình gán nhãn dữ liệu cho R2 mất nhiều thời gian hơn dự kiến, theo một nguồn tin khác của FT. Truyền thông Trung Quốc loan tin DeepSeek có thể tung ra R2 trong vài tuần tới.

“Các mô hình AI là loại sản phẩm có thể dễ dàng bị thay thế. Nhiều nhà phát triển đang dùng Qwen3 của Alibaba, vốn mạnh mẽ và linh hoạt”, Ritwik Gupta, nhà nghiên cứu AI tại Đại học California – Berkeley (Mỹ), nhận xét.

Ritwik Gupta lưu ý rằng Qwen3 áp dụng các khái niệm cốt lõi của DeepSeek, chẳng hạn thuật toán huấn luyện giúp mô hình AI có khả năng suy luận, nhưng đã làm cho chúng hiệu quả hơn khi sử dụng.

Theo dõi hệ sinh thái AI của Huawei, Ritwik Gupta cho rằng hãng công nghệ hàng đầu Trung Quốc này đang phải đối mặt với "những khó khăn ban đầu" khi sử dụng chip Ascend để đào tạo mô hình. Thế nhưng, ông tin Huawei sẽ thích nghi theo thời gian.

“Việc hiện tại chưa thấy các mô hình AI hàng đầu được huấn luyện trên chip Huawei không có nghĩa điều đó sẽ không xảy ra trong tương lai. Vấn đề chỉ là thời gian”, Ritwik Gupta nhận xét.

Đang ở trung tâm cuộc đối đầu địa chính trị Trung - Mỹ, Nvidia gần đây đã đồng ý chia sẻ 15% doanh thu với chính phủ Mỹ để có thể nối lại việc bán chip H20 cho Trung Quốc.

H20 là chip AI trung tâm dữ liệu mạnh nhất hiện nay của Nvidia dành cho thị trường Trung Quốc, chuyên dùng huấn luyện các mô hình.

“Các nhà phát triển sẽ đóng vai trò then chốt trong việc xây dựng hệ sinh thái AI chiến thắng. Từ bỏ toàn bộ thị trường cùng các nhà phát triển Trung Quốc chỉ làm tổn hại tới kinh tế và an ninh quốc gia Mỹ”, Nvidia nói về các công ty Trung Quốc đang dùng chip của hãng.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/deepseek-v3-1-ra-mat-fan-van-mong-cho-r2-236441.html