CEO DeepSeek tung bí kíp huấn luyện mô hình AI lớn hơn với chi phí thấp hơn

DeepSeek khởi đầu năm 2026 bằng bài viết kỹ thuật với CEO Liang Wenfeng là đồng tác giả, trong đó đề xuất tái cấu trúc nền tảng kiến trúc dùng để huấn luyện mô hình AI.

Phương pháp này có tên mHC, là một phần trong nỗ lực của công ty khởi nghiệp DeepSeek nhằm làm cho các mô hình AI (trí tuệ nhân tạo) trở nên hiệu quả hơn về chi phí, khi phải chạy đua với các đối thủ Mỹ được cấp vốn dồi dào và có khả năng tiếp cận tài nguyên tính toán vượt trội.

mHC là từ viết tắt của Manifold-Constrained Hyper-Connections, có nghĩa là các siêu kết nối được ràng buộc bởi đa tạp.

Đa tạp là khái niệm toán học dùng để mô tả một không gian phức tạp nhưng có cấu trúc, trong đó mỗi vùng nhỏ nhìn giống không gian quen thuộc (như đường thẳng hay mặt phẳng), dù toàn bộ không gian có thể cong hoặc nhiều chiều.

Bài viết cũng phản ánh văn hóa ngày càng cởi mở và mang tính hợp tác trong cộng đồng các công ty AI Trung Quốc, khi ngày càng nhiều nghiên cứu được công bố công khai.

Với giới chuyên gia theo dõi ngành AI, các bài viết của DeepSeek thường cung cấp tín hiệu sớm quan trọng về những lựa chọn kỹ thuật sẽ định hình lần phát hành mô hình lớn tiếp theo của công ty có trụ sở ở thành phố Hàng Châu (Trung Quốc).

Trong bài viết được công bố hôm 1.1.2026, nhóm 19 nhà nghiên cứu DeepSeek cho biết đã thử nghiệm mHC trên các mô hình có 3 tỉ, 9 tỉ và 27 tỉ tham số. Họ nhận thấy mHC có thể mở rộng quy mô mà không làm tăng đáng kể gánh nặng tính toán.

“Các kết quả thực nghiệm xác nhận rằng mHC hoạt động hiệu quả, cho phép huấn luyện quy mô lớn ổn định với khả năng mở rộng vượt trội so với HC thông thường”, theo nhóm nghiên cứu do Zhenda Xie, Yixuan Wei và Huanqi Cao dẫn dắt.

Liang Wenfeng (Lương Văn Phong), nhà sáng lập kiêm Giám đốc điều hành DeepSeek, được ghi tên là tác giả cuối cùng của bài viết.

“Điều quan trọng là thông qua các tối ưu hóa cấp độ cơ sở hạ tầng hiệu quả, mHC mang lại những lợi ích này với chi phí tính toán không đáng kể”, nhóm nghiên cứu cho biết thêm.

HC (hyper-connections, hoặc các siêu kết nối) là kỹ thuật kiến trúc trong học sâu nhằm cải thiện việc truyền và bảo toàn tín hiệu học khi huấn luyện các mạng nơ-ron rất sâu, đặc biệt là các mô hình nền tảng quy mô lớn.

Bài viết này cũng cung cấp thêm bằng chứng cho thấy Liang Wenfeng, người rất kín tiếng dù danh tiếng DeepSeek ngày càng tăng, vẫn tham gia vào các nghiên cứu cốt lõi tại một trong những công ty AI được theo dõi sát sao nhất Trung Quốc.

Liang Wenfeng được tạp chí Nature đưa vào danh sách 10 người định hình khoa học năm 2025 - Ảnh: Shutterstock

Liang Wenfeng được tạp chí Nature đưa vào danh sách 10 người định hình khoa học năm 2025 - Ảnh: Shutterstock

HC lần đầu được các nhà nghiên cứu của ByteDance (công ty mẹ TikTok) đề xuất vào tháng 9.2024 như một sự điều chỉnh cho ResNet, kiến trúc học sâu chủ đạo được giới thiệu năm 2015 bởi các chuyên gia Microsoft Research Asia, trong đó có nhà khoa học máy tính Trung Quốc nổi tiếng He Kaiming (Hạ Khải Minh).

ResNet cho phép huấn luyện các mạng nơ-ron rất sâu bằng cách ổn định quá trình huấn luyện, bảo đảm rằng thông tin quan trọng (còn gọi là residual) được giữ lại khi số lượng lớp tăng lên. Kiến trúc này đã trở thành phần không thể thiếu của các mô hình ngôn ngữ lớn như GPT của OpenAI hay hệ thống AlphaFold từng đoạt giải Nobel của Google DeepMind.

Tuy nhiên, ResNet có một số điểm hạn chế. Theo các nhà nghiên cứu DeepSeek, giải pháp HC của ByteDance đã xử lý thành công những vấn đề này bằng cách mở rộng luồng residual và tăng độ phức tạp của mạng nơ-ron, mà không làm thay đổi chi phí tính toán của từng đơn vị riêng lẻ.

Tuy vậy, DeepSeek cho rằng cách tiếp cận trước đó chưa tính đầy đủ đến chi phí bộ nhớ ngày càng tăng, khiến “khả năng mở rộng trong thực tế” bị hạn chế khi huấn luyện các mô hình AI rất lớn.

Thay vào đó, DeepSeek đề xuất điều chỉnh bổ sung, trong đó ràng buộc mạng HC bằng một đa tạp cụ thể nhằm bảo đảm hiệu quả về tính toán và chi phí.

“mHC sẽ giúp giải quyết những hạn chế hiện tại và có thể mở ra những con đường mới cho sự tiến hóa của các kiến trúc nền tảng thế hệ tiếp theo”, các nhà nghiên cứu DeepSeek viết.

Kỳ vọng DeepSeek phát hành mô hình lớn tiếp theo

Bài viết được chính Liang Wenfeng tải lên kho lưu trữ truy cập mở arXiv. Những năm gần đây, Liang Wenfeng cũng là người đăng tải các bài viết kỹ thuật quan trọng của DeepSeek, gồm cả các nghiên cứu liên quan đến các mô hình suy luận R1 và mô hình nền tảng V3. Những bài viết ít quan trọng hơn thường do các nhà nghiên cứu khác tại DeepSeek đăng tải.

Florian Brand, nghiên cứu sinh tiến sĩ tại Đại học Trier (Đức) và là chuyên gia về hệ sinh thái AI Trung Quốc, cho biết các bài viết của DeepSeek thường đóng vai trò như tín hiệu sớm về định hướng kỹ thuật đứng sau thế hệ mô hình tiếp theo của công ty.

Nhiều người đang kỳ vọng ở mức cao rằng DeepSeek phát hành mô hình lớn tiếp theo vào giai đoạn cận kề kỳ nghỉ Tết Nguyên đán giữa tháng 2.2026.

Năm 2025, DeepSeek từng tung ra R1 ngay trước Tết Nguyên đán, làm dấy lên suy đoán rằng công ty có thể lặp lại chiêu bài này năm nay.

DeepSeek nổi lên như một hiện tượng khi được nhiều chuyên gia mô tả là “ngựa ô lớn nhất” trong lĩnh vực mô hình AI mở.

Đầu năm 2025, DeepSeek gây chấn động ngành công nghệ khi phát hành R1, có hiệu suất ngang các sản phẩm Mỹ như của OpenAI, Google, Anthropic và được huấn luyện với chi phí thấp hơn rất nhiều. Việc này chứng minh rằng Mỹ không dẫn đầu về AI xa hơn Trung Quốc như nhiều chuyên gia từng nghĩ và góp phần kích hoạt một đợt bán tháo mạnh cổ phiếu công nghệ vào ngày 27.1, khiến vốn hóa toàn ngành sụt giảm gần 1.000 tỉ USD, trong đó riêng Nvidia mất 600 tỉ USD.

Hồi tháng 9, DeepSeek gây sốc khi tiết lộ R1 có chi phí huấn luyện chỉ 294.000 USD và sử dụng 512 GPU (bộ xử lý đồ họa) Nvidia H800. Đây không phải là loại chip AI hàng đầu của Nvidia, ban đầu được phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

Đầu năm nay, DeepSeek thông báo huấn luyện mô hình nền tảng V3 chỉ bằng 2.048 GPU Nvidia H800 trong khoảng hai tháng, với chi phí 5,6 triệu USD.

Thành công của DeepSeek cũng cho thấy Trung Quốc đang tìm cách tận dụng hệ sinh thái mở để rút ngắn khoảng cách về AI so với Mỹ trong bối cảnh bị hạn chế mua chip AI tiên tiến.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/ceo-deepseek-tung-bi-kip-huan-luyen-mo-hinh-ai-lon-hon-voi-chi-phi-thap-hon-243146.html