DeepSeek: V4 vượt trội các mô hình AI mã nguồn mở, tương thích với chip Huawei

DeepSeek cho biết V4 có hiệu suất vượt trội các mô hình mã nguồn mở khác, đủ sức cạnh tranh với sản phẩm mã nguồn đóng của OpenAI và Google.

DeepSeek vừa công bố phiên bản xem trước V4 (V4 Preview), mô hình AI nền tảng thế hệ mới được chờ đợi từ lâu của mình. Theo công ty khởi nghiệp AI Trung Quốc, V4 là mã nguồn mở, có khả năng cạnh tranh với các mô hình mã nguồn đóng hàng đầu Mỹ từ OpenAI và Google.

DeepSeek phát hành hai phiên bản V4 khác nhau. Trong đó, V4-pro có 1.600 tỉ tham số, trở thành mô hình lớn nhất từ trước đến nay của DeepSeek theo tiêu chí này. Trong khi phiên bản nhỏ hơn V4-flash có 284 tỉ tham số.

Số lượng tham số cao hơn thường đồng nghĩa với năng lực mạnh hơn, nhưng cũng kéo theo yêu cầu tính toán lớn hơn trong quá trình huấn luyện và vận hành mô hình AI.

Cả V4-pro và V4-flash đều có cửa sổ ngữ cảnh 1 triệu token. Cửa sổ ngữ cảnh là tính năng quan trọng quyết định lượng thông tin mà mô hình AI có thể xử lý. DeepSeek cho biết đạt được khả năng này với hiệu quả chi phí dẫn đầu thế giới. Mô hình chủ lực trước đó của DeepSeek chỉ có cửa sổ ngữ cảnh 128.000 token.

Điểm đáng chú ý là DeepSeek điều chỉnh V4 để tương thích với công nghệ chip Huawei, qua đó nhấn mạnh năng lực ngày càng tăng của Trung Quốc trong lĩnh vực này.

Sự hợp tác chặt chẽ với Huawei trong mô hình V4 trái ngược với việc DeepSeek trước đây phụ thuộc vào chip Nvidia. Tuy nhiên, DeepSeek không tiết lộ cụ thể loại chip nào được sử dụng để huấn luyện V4.

V4-pro có hiệu suất vượt trội so với các mô hình AI mã nguồn mở khác trong các bài kiểm tra kiến thức tổng quát, chỉ xếp sau Google Gemini Pro 3.1, theo DeepSeek.

V4 Preview cho phép DeepSeek thu thập phản hồi thực tế và điều chỉnh trước khi phát hành chính thức. DeepSeek chưa công bố thời điểm hoàn thiện mô hình AI này.

DeepSeek cho biết V4-pro có hiệu suất vượt trội các mô hình AI mã nguồn mở khác trong các bài kiểm tra kiến thức tổng quát, được điều chỉnh để tương thích với công nghệ chip Huawei - Ảnh: MTG

DeepSeek cho biết V4-pro có hiệu suất vượt trội các mô hình AI mã nguồn mở khác trong các bài kiểm tra kiến thức tổng quát, được điều chỉnh để tương thích với công nghệ chip Huawei - Ảnh: MTG

DeepSeek là trung tâm căng thẳng về AI giữa Mỹ và Trung Quốc

Việc DeepSeek ra mắt V4 Preview diễn ra chỉ một ngày sau khi Nhà Trắng cáo buộc Trung Quốc đánh cắp tài sản trí tuệ từ các phòng thí nghiệm AI Mỹ ở quy mô công nghiệp. Điều này làm dấy lên lo ngại căng thẳng sẽ leo thang trước khi Tổng thống Mỹ Donald Trump dự kiến gặp Chủ tịch Trung Quốc Tập Cận Bình tại thủ đô Bắc Kinh vào tháng 5 tới.

“Chính phủ Mỹ có thông tin cho thấy các thực thể nước ngoài, chủ yếu có trụ sở tại Trung Quốc, đang tham gia vào các chiến dịch có chủ đích, trên quy mô công nghiệp để chưng cất các hệ thống AI tiên tiến của Mỹ”, Michael Kratsios, Giám đốc Văn phòng Chính sách Khoa học và Công nghệ Nhà Trắng, viết trong một bản ghi nhớ được chia sẻ trên mạng xã hội hôm 23/4.

“Bằng cách sử dụng hàng chục nghìn tài khoản trung gian để tránh bị phát hiện và sử dụng kỹ thuật jailbreak nhằm khai thác thông tin độc quyền, các chiến dịch phối hợp này đang trích xuất một cách có hệ thống năng lực từ các mô hình AI Mỹ, khai thác chuyên môn và sự đổi mới của Mỹ”, ông cho biết thêm.

Đại sứ quán Trung Quốc tại Washington phản đối “những cáo buộc vô căn cứ”, đồng thời khẳng định nước này “rất coi trọng việc bảo vệ quyền sở hữu trí tuệ”.

DeepSeek đã trở thành tâm điểm của tranh cãi này khi bị Mỹ cáo buộc vi phạm lệnh kiểm soát xuất khẩu của Mỹ do tiếp cận các chip Nvidia tiên tiến để huấn luyện mô hình AI. Anthropic và OpenAI cũng cho rằng DeepSeek đã chưng cất trái phép các mô hình AI độc quyền của họ.

Chưng cất là quá trình huấn luyện các mô hình AI nhỏ hơn bằng cách sử dụng đầu ra của mô hình lớn hơn như một phần nỗ lực giảm chi phí huấn luyện AI mới. Về bản chất, kỹ thuật này là hợp pháp nếu được sử dụng nội bộ. Tuy nhiên, vấn đề trở nên nghiêm trọng nếu một công ty sử dụng đầu ra của mô hình AI đối thủ để huấn luyện sản phẩm cạnh tranh.

DeepSeek thừa nhận có sử dụng chip Nvidia nhưng chưa bình luận liệu các chip đó có thuộc diện bị Mỹ cấm xuất khẩu hay không. Công ty ở thành phố Hàng Châu cho biết mô hình V3 sử dụng dữ liệu tự nhiên thu thập trên web và không cố ý dùng dữ liệu tổng hợp tạo ra từ OpenAI.

Huawei và Deepseek hợp tác chặt chẽ

Cung cấp dòng chip AI Ascend, Huawei đóng vai trò quan trọng trong nỗ lực của Trung Quốc giảm phụ thuộc vào công nghệ Mỹ.

Huawei cho biết đã hợp tác chặt chẽ với DeepSeek để hai mô hình V4 có thể chạy trên toàn bộ hệ thống hiệu năng cao của hãng.

“Toàn bộ dòng sản phẩm siêu nút Ascend hiện hỗ trợ các mô hình DeepSeek V4”, Huawei cho biết.

Siêu nút là nút tính toán có hiệu năng đặc biệt cao trong mạng máy tính hoặc hệ thống điện toán. Trong lĩnh vực điện toán hiệu năng cao hay AI, siêu nút thường là khối phần cứng lớn, bên trong chứa nhiều bộ xử lý tăng tốc (GPU, NPU,…) cùng bộ nhớ dung lượng lớn và các liên kết truyền dữ liệu tốc độ cực cao. Siêu nút có thể đứng độc lập để xử lý khối lượng điện toán khổng lồ, hoặc đóng vai trò đầu mối kết nối trong cụm máy tính siêu nút.

GPU (bộ xử lý đồ họa) là loại vi mạch chuyên dùng để xử lý và tăng tốc các phép tính liên quan đến hình ảnh, video và đồ họa 3D. Ban đầu GPU được thiết kế để phục vụ hiển thị hình ảnh trong máy tính, máy chơi game hay các thiết bị di động. Tuy nhiên, nhờ khả năng thực hiện đồng thời hàng nghìn phép tính song song, GPU ngày nay còn được sử dụng rộng rãi trong những công việc đòi hỏi hiệu năng tính toán rất lớn, như huấn luyện và suy luận các AI; xử lý dữ liệu khoa học, mô phỏng vật lý, dự báo khí hậu; kết xuất video và hình ảnh chất lượng cao.

NPU (bộ xử lý thần kinh) được thiết kế chuyên biệt để tăng tốc các tác vụ mạng nơ-ron nhân tạo, như huấn luyện hoặc suy luận mô hình AI. NPU có cấu trúc phần cứng tối ưu cho các phép nhân - cộng ma trận, xử lý song song quy mô lớn, nhờ đó tiêu thụ điện ít hơn và nhanh hơn so với CPU hoặc GPU trong các công việc liên quan đến AI.

Mỹ bắt đầu hạn chế Huawei tiếp cận chip AI tiên tiến từ các công ty Mỹ vào năm 2022. Kể từ đó, Trung Quốc đã đẩy mạnh chiến lược tự chủ công nghệ, tạo lợi thế cho các nhà sản xuất chip nội địa như Huawei.

Tháng 1/2025, DeepSeek gây chấn động ngành công nghệ với việc ra mắt mô hình suy luận R1 có hiệu năng tương đương các sản phẩm hàng đầu Mỹ như của OpenAI, Anthropic và Google, nhưng chi phí huấn luyện thấp hơn rất nhiều. Động thái này đã làm dấy lên lo ngại tại Mỹ rằng Trung Quốc có thể bắt kịp trong cuộc đua AI bất chấp việc bị hạn chế mua chip hiệu năng cao từ Nvidia.

Sự xuất hiện của R1 góp phần kích hoạt đợt bán tháo cổ phiếu công nghệ trị giá khoảng 1.000 tỉ USD trên thị trường toàn cầu. Riêng Nvidia, công ty Mỹ chuyên cung cấp chip tiên tiến để huấn luyện các mô hình AI, mất gần 600 tỉ USD vốn hóa thị trường chỉ trong một ngày 27/1/2025.

Sự trỗi dậy nhanh chóng của DeepSeek từ đầu năm 2025 đã đưa các mô hình mã nguồn mở giá rẻ trở thành tâm điểm của hệ sinh thái AI Trung Quốc, thúc đẩy sự cạnh tranh giữa hàng loạt đối thủ trong nước.

Tin tức về V4 khiến cổ phiếu một số công ty AI Trung Quốc lao dốc: Zhipu AI giảm 9% và MiniMax giảm 7%.

DeepSeek, thuộc sở hữu của quỹ đầu tư định lượng High-Flyer, đang hướng tới vòng gọi vốn với định giá hơn 20 tỉ USD, theo trang The Information. The Information cho biết Alibaba và Tencent đang thảo luận về khả năng mua cổ phần DeepSeek.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/deepseek-v4-vuot-troi-cac-mo-hinh-ai-ma-nguon-mo-tuong-thich-voi-chip-huawei-250651.html