Bước đi của DeepSeek được hé lộ trước khi nhà sáng lập Lương Văn Phong gặp ông Tập Cận Bình
Nghiên cứu kỹ thuật được công bố một ngày trước khi Lương Văn Phong, nhà sáng lập kiêm Giám đốc điều hành DeepSeek, tham dự hội thảo do Chủ tịch Trung Quốc - Tập Cận Bình chủ trì hôm 17.2.
DeepSeek đã tiết lộ những ưu tiên phát triển tiếp theo trong một nghiên cứu kỹ thuật mới, với Lương Văn Phong là 1 trong 15 đồng tác giả. Nghiên cứu này tập trung vào Native Sparse Attention (NSA), hệ thống được cho là giúp các mô hình trí tuệ nhân tạo (AI) xử lý lượng dữ liệu khổng lồ hiệu quả hơn.
Nghiên cứu có tiêu đề Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention được DeepSeek công bố hôm 16.1 trên arXiv – diễn đàn trực tuyến dành cho cộng đồng khoa học chuyên nghiệp. Chỉ một ngày sau đó, Lương Văn Phong (40 tuổi) cùng nhiều doanh nhân công nghệ đã tham dự hội thảo do ông Tập Cận Bình chủ trì tại Bắc Kinh, thủ đô Trung Quốc.

Ông Lương Văn Phong chào hỏi Chủ tịch Tập Cận Bình tại một hội nghị chuyên đề được tổ chức tại Bắc Kinh hôm 17.2 - Ảnh: CCTV
Theo nguồn tin có hiểu biết về tình hình nhưng từ chối tiết lộ danh tính, DeepSeek đang tập trung hơn vào nghiên cứu khi sự chú ý toàn cầu với công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu ngày càng gia tăng. DeepSeek không vội vàng kêu gọi vốn hay tiến hành các hoạt động thương mại mới.
Đẩy mạnh nghiên cứu AI hiệu quả hơn
Nghiên cứu cho thấy Lương Văn Phong và đội ngũ các nhà khoa học trẻ của DeepSeek đang tiếp tục thúc đẩy giới hạn trong ngành, sau khi công ty đạt bước đột phá với các mô hình AI mã nguồn mở tiên tiến V3 và R1. Hai mô hình này được phát triển với chi phí và sức mạnh tính toán chỉ bằng một phần nhỏ so với các dự án mô hình ngôn ngữ lớn của các tập đoàn công nghệ lớn.
“Ngoài thiết kế tối ưu hóa cho phần cứng máy tính hiện đại, NSA giúp tăng tốc suy luận đồng thời giảm chi phí tiền huấn luyện, mà không làm giảm hiệu suất”, theo nghiên cứu.
Suy luận đề cập đến quá trình khi một mô hình AI, sau khi được huấn luyện để nhận diện các mẫu trong tập dữ liệu được chọn lọc, có thể bắt đầu nhận ra các mẫu tương tự trong dữ liệu mới mà nó chưa từng thấy trước đó. Nhờ vậy, mô hình AI có thể suy luận và đưa ra dự đoán tương tự con người.
Ngoài ra, nghiên cứu chỉ ra rằng NSA “sánh ngang hoặc vượt trội” so với các mô hình AI phát triển theo cơ chế “chú ý đầy đủ” (full attention) trên các tiêu chuẩn đánh giá chung, tác vụ ngữ cảnh dài và suy luận dựa trên hướng dẫn.
Mô hình ngôn ngữ lớn là công nghệ nền tảng của các dịch vụ AI tạo sinh như ChatGPT, Ernie Bot của Baidu và chatbot DeepSeek. Mã nguồn mở cho phép công chúng truy cập vào mã nguồn của một chương trình, giúp các nhà phát triển phần mềm bên thứ ba có thể sửa đổi, chia sẻ thiết kế, khắc phục lỗi hoặc mở rộng khả năng của hệ thống. Công nghệ mã nguồn mở đã đóng góp lớn cho ngành công nghệ Trung Quốc nhiều thập kỷ qua.
DeepSeek trở thành điểm đến hấp dẫn cho nhân tài AI
Bên ngoài hội thảo tại Bắc Kinh hôm 17.2 và cuộc gặp tháng trước do Thủ tướng Trung Quốc - Lý Cường chủ trì, Lương Văn Phong vẫn kín tiếng dù sự quan tâm đến DeepSeek đang gia tăng.
Đầu tháng 2, Lương Văn Phong đã không tham dự Hội nghị Hành động về AI ở Paris (thủ đô Pháp) dù được mời.
Không phát biểu tại hội thảo do ông Tập Cận Bình chủ trì, sự quan tâm của công chúng Trung Quốc với Lương Văn Phong tăng đột biến sau cuộc gặp này. Theo báo cáo hôm 19.2 của Weixin Index (nền tảng theo dõi từ khóa trên WeChat), hơn 222 triệu người dùng mạng xã hội Trung Quốc đã đọc các bài báo và xem video ngắn về Lương Văn Phong hôm 18.2, tăng 69% so với ngày 17.2.
Sự chú ý mà DeepSeek nhận được những tuần qua khiến công ty trở thành một trong những điểm đến hấp dẫn nhất với những người trẻ tuổi tìm việc tại Trung Quốc.
DeepSeek đang đẩy mạnh tuyển dụng nhân tài AI, với hàng chục vị trí nghiên cứu và phát triển trong lĩnh vực AI tổng quát (AGI) tại trụ sở chính ở Hàng Châu (tỉnh Chiết Giang) cũng như tại Bắc Kinh, theo trang web của công ty mẹ High-Flyer Quant và các nền tảng tuyển dụng ở Trung Quốc.
AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".
Các doanh nghiệp lớn đổ xô hợp tác với DeepSeek
Các tập đoàn lớn Trung Quốc cũng đang chạy đua hợp tác với DeepSeek. Nhiều nhà cung cấp dịch vụ điện toán đám mây, hãng viễn thông, ô tô và tập đoàn internet lớn đã áp dụng mô hình AI của DeepSeek.
Baidu (hãng tìm kiếm lớn nhất Trung Quốc) đang tích hợp các mô hình AI DeepSeek vào công cụ tìm kiếm của mình, ngay sau động thái từ Tencent. Gần đây, Tencent đã áp dụng công nghệ của DeepSeek trong Weixin, nền tảng mạng xã hội lớn nhất Trung Quốc.
Baidu sẽ kết nối đầy đủ cả DeepSeek và các mô hình ngôn ngữ lớn Ernie với công cụ tìm kiếm để cung cấp “trải nghiệm tìm kiếm đa dạng hơn”, công ty thông báo hôm 17.2.
Ngoài ra, gã khổng lồ tìm kiếm intenet Trung Quốc cũng sẽ thêm DeepSeek vào nền tảng mô hình ngôn ngữ lớn dành cho nhà phát triển của mình.
Baidu áp dụng DeepSeek sau khi đối thủ Tencent công bố thử nghiệm các mô hình AI này trên siêu ứng dụng Weixin, tên gọi của WeChat tại Trung Quốc đại lục. Một số người dùng đã được cấp quyền truy cập DeepSeek-R1 thông qua thanh tìm kiếm của Weixin cuối tuần qua. Điều này có khả năng mở rộng mức độ tiếp cận của các mô hình AI DeepSeek tới 1,3 tỉ người dùng hoạt động trên Weixin. Hiện tại, tính năng này chỉ được cung cấp cho các tài khoản Weixin tại Trung Quốc đại lục.
Một yếu tố quan trọng trong sự thành công bất ngờ của DeepSeek: V3 và R1 đều mã nguồn mở, cho phép bất kỳ ai sử dụng và chỉnh sửa chúng. Điều đó đã thúc đẩy các đối thủ cạnh tranh áp dụng chiến lược mã nguồn mở của riêng mình, gồm cả Baidu, vốn trước đây chủ yếu tập trung vào phát triển mô hình AI mã nguồn đóng.
Hôm 14.2, Baidu thông báo phiên bản tiếp theo của các mô hình ngôn ngữ lớn Ernie sẽ được cung cấp dưới dạng mã nguồn mở từ ngày 30.6. Đây là một bước ngoặt 180 độ so với quan điểm lâu nay của Lý Ngạn Hoành (nhà sáng lập, Chủ tịch kiêm Giám đốc điều hành Baidu), vốn ủng hộ phát triển AI theo hướng mã nguồn đóng.
Trước đó, ngày 13.2, Baidu cho biết dịch vụ Ernie Bot sẽ được dùng miễn phí từ ngày 1.4, giúp nhiều người hơn tiếp cận với các mô hình ngôn ngữ lớn Ernie của công ty. Động thái này sẽ chấm dứt nỗ lực kéo dài 17 tháng nhằm kiếm tiền từ dịch vụ Ernie Bot, vốn đang thu phí người dùng 49,90 nhân dân tệ (6,84 USD) mỗi tháng để truy cập vào các mô hình ngôn ngữ lớn Ernie.
Sự thay đổi chiến lược sang nguồn mở của Baidu phản ánh sự cạnh tranh gia tăng trên thị trường AI Trung Quốc, nơi DeepSeek và Alibaba gần đây có những bước tiến lớn trong việc phát triển và tăng cường áp dụng mô hình AI.
Các mô hình Qwen của Alibaba đang đóng vai trò quan trọng trong việc vận hành hoặc hỗ trợ phát triển những mô hình ngôn ngữ lớn mã nguồn mở mạnh nhất hiện nay, theo đánh giá của Hugging Face – nền tảng nổi tiếng trong lĩnh vực học máy.
Dù chiến lược mã nguồn mở của Baidu có thể giúp thu hút nhiều người dùng hơn và đối phó với sự cạnh tranh ngày càng tăng, nhưng nó cũng đặt thêm gánh nặng tài chính lên công ty trong bối cảnh triển vọng kiếm tiền từ AI vẫn còn chưa chắc chắn, theo Su Lian Jye - nhà phân tích chính tại công ty nghiên cứu Omdia.
Dự đoán nhu cầu về các mô hình AI nền tảng sẽ tiếp tục tăng nhanh trong năm nay, Su Lian Jye cho biết thị trường này sẽ bắt đầu chứng kiến sự hợp nhất và tập trung nhiều hơn vào các mô hình cũng như tác tử AI dành riêng cho ngành.
Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.
Thời gian qua, các công ty Trung Quốc và chính quyền địa phương đang đổ xô triển khai các sản phẩm DeepSeek trên hệ thống của họ.
Thành phố Quảng Châu và Thâm Quyến, thuộc tỉnh Quảng Đông, hôm 16.2 cho biết đã tích hợp mô hình suy luận DeepSeek-R1 vào các nền tảng dịch vụ công.
Chính quyền thành phố Quảng Châu, thủ phủ của tỉnh Quảng Đông, đã áp dụng DeepSeek-R1 cùng các mô hình ngôn ngữ lớn khác cho phần cứng nội địa và sẽ sử dụng chúng để cải thiện các dịch vụ công như diễn giải chính sách và điều phối nhiệm vụ cho đường dây nóng chính quyền.
Quận Long Cảng của thành phố Thâm Quyến đã áp dụng R1 vào ngày 8.2, trở thành chính quyền quận đầu tiên trong nước áp dụng rộng rãi mô hình hiệu suất cao, chi phí thấp của DeepSeek.