DeepSeek đẩy nhanh ra mắt mô hình R2 để gây sốc cho Mỹ, khi được chính quyền Trung Quốc ủng hộ
DeepSeek đang tìm cách tận dụng lợi thế của mình.
DeepSeek từng gây ra đợt bán tháo cổ phiếu trị giá hơn 1.000 tỉ USD trên thị trường chứng khoán toàn cầu cuối tháng 1 sau khi trình làng R1, mô hình trí tuệ nhân tạo (AI) nguồn mở giá rẻ có khả năng suy luận vượt trội so với nhiều đối thủ phương Tây.
DeepSeek đang đẩy nhanh việc ra mắt phiên bản tiếp theo của R1, theo ba nguồn tin quen thuộc với công ty.
Công ty có trụ sở tại thành phố Hàng Châu (Trung Quốc) ban đầu dự định phát hành R2 vào đầu tháng 5, nhưng giờ đây muốn tung ra sớm nhất có thể, hai trong số các nguồn tin của Reuters cho biết.
DeepSeek hy vọng R2 sẽ cải thiện khả năng lập trình và có thể suy luận bằng nhiều ngôn ngữ ngoài tiếng Anh.
Các đối thủ vẫn đang đánh giá tác động của R1, vốn được xây dựng bằng các chip Nvidia kém mạnh mẽ hơn nhưng vẫn có khả năng cạnh tranh với những mô hình AI được các gã khổng lồ công nghệ Mỹ phát triển với chi phí lên đến hàng tỉ USD.
"Sự ra mắt của mô hình R2 của DeepSeek có thể trở thành cột mốc quan trọng trong ngành AI", Vijayasimha Alilughatta, Giám đốc điều hành nhà cung cấp dịch vụ công nghệ Zensar (Ấn Độ), nhận định. Thành công của DeepSeek trong việc tạo ra các mô hình AI tiết kiệm chi phí "có thể sẽ thúc đẩy các công ty trên toàn thế giới đẩy nhanh nỗ lực phá vỡ sự thống trị của một số ít công ty lớn trong lĩnh vực này", ông nói.
R2 có khả năng làm dấy lên mối lo ngại với chính phủ Mỹ, khi nước này coi AI là ưu tiên quốc gia. Việc phát hành R2 có thể càng khiến chính quyền và doanh nghiệp Trung Quốc phấn khích, với hàng chục công ty tuyên bố bắt đầu tích hợp các mô hình AI DeepSeek vào sản phẩm của mình.

R2 của DeepSeek có thể khiến chính phủ Mỹ lo lắng - Ảnh: Internet
Hành trình khác biệt
Lương Văn Phong (nhà sáng lập DeepSeek) trở thành tỷ phú nhờ quỹ đầu tư định lượng High-Flyer của mình. Cũng do Lương Văn Phong sáng lập, High-Flyer là công ty mẹ của DeepSeek. Ông được một cựu đồng nghiệp mô tả là "ít nói và hướng nội", chưa từng trả lời bất kỳ phương tiện truyền thông nào kể từ tháng 7.2024.
Reuters đã phỏng vấn khoảng 12 cựu nhân viên DeepSeek cũng như các chuyên gia trong ngành quỹ định lượng có hiểu biết về hoạt động của công ty này và High-Flyer. Reuters cũng xem xét các bài viết trên truyền thông nhà nước Trung Quốc, bài đăng trên mạng xã hội từ DeepSeek và những bài nghiên cứu từ năm 2019.
Những thông tin thu thập được vẽ nên bức tranh về một công ty hoạt động giống phòng thí nghiệm nghiên cứu hơn là doanh nghiệp vì lợi nhuận, không bị ràng buộc bởi truyền thống phân cấp nghiêm ngặt của ngành công nghệ Trung Quốc vốn nổi tiếng với áp lực cao, ngay cả khi nó tạo ra đột phá mới nhất trong lĩnh vực AI.
Lương Văn Phong sinh năm 1985 tại một ngôi làng nông thôn ở tỉnh Quảng Đông, miền nam Trung Quốc. Khi lớn lên, ông theo học ngành Kỹ thuật truyền thông tại Đại học Chiết Giang danh tiếng.
Một trong những công việc đầu tiên của Lương Văn Phong là điều hành một bộ phận nghiên cứu tại công ty hình ảnh thông minh ở thành phố Thượng Hải. Chu Triều Ân, ông chủ của Lương Văn Phong khi đó, nói với truyền thông nhà nước rằng nhà sáng lập DeepSeek đã tuyển dụng các kỹ sư thuật toán đoạt giải thưởng và áp dụng phong cách quản lý "phẳng".
Phong cách quản lý "phẳng" là mô hình quản lý trong đó doanh nghiệp có ít hoặc không có cấp bậc quản lý trung gian, giúp nhân viên có quyền tự chủ cao hơn và dễ dàng tiếp cận lãnh đạo.
Tại DeepSeek và High-Flyer, Lương Văn Phong cũng tránh các phương thức quản lý cứng nhắc phổ biến ở các tập đoàn công nghệ Trung Quốc, nơi nhân viên trẻ bị trả lương thấp và phải làm việc theo mô hình 996 (từ 9 giờ sáng đến 9 giờ tối, 6 ngày một tuần).
Lương Văn Phong mở văn phòng DeepSeek tại thủ đô Bắc Kinh, gần Đại học Thanh Hoa và Đại học Bắc Kinh, hai trường danh tiếng nhất Trung Quốc. Ông thường xuyên tham gia vào các chi tiết kỹ thuật và sẵn sàng làm việc cùng với các thực tập sinh Gen Z cùng các sinh viên mới tốt nghiệp - nhóm chiếm phần lớn lực lượng lao động của DeepSeek. Các nhân viên DeepSeek thường làm việc 8 giờ một ngày trong bầu không khí hợp tác.
"Lương Văn Phong trao cho chúng tôi quyền tự chủ và coi chúng tôi như chuyên gia. Ông ấy liên tục đặt câu hỏi và học hỏi cùng chúng tôi. DeepSeek cho phép tôi chịu trách nhiệm về các phần quan trọng trong quy trình, điều đó thực sự rất thú vị", Benjamin Liu, nhà nghiên cứu 26 tuổi rời công ty vào tháng 9.2024, kể lại.

Ông Lương Văn Phong chào hỏi Chủ tịch Tập Cận Bình tại một hội nghị chuyên đề hôm 17.2 - Ảnh: CCTV
Trong khi Baidu và các gã khổng lồ công nghệ Trung Quốc khác đua nhau phát triển phiên bản ChatGPT của riêng họ vào năm 2023 để tận dụng cơn sốt AI toàn cầu, Lương Văn Phong nói với hãng truyền thông Waves năm ngoái rằng ông cố tình tránh đầu tư mạnh vào phát triển ứng dụng, thay vào đó tập trung vào việc nâng cao chất lượng mô hình AI.
Cả DeepSeek và High-Flyer đều nổi tiếng cung cấp mức lương hậu hĩnh, theo ba nguồn tin quen thuộc với chính sách đãi ngộ của họ. Tại High-Flyer, không hiếm các nhà khoa học dữ liệu cấp cao kiếm được 1,5 triệu nhân dân tệ/năm, trong khi các đối thủ cạnh tranh ít khi trả hơn 800.000 nhân dân tệ/năm.
Sự hào phóng này được tài trợ bởi High-Flyer, một trong những quỹ định lượng thành công nhất Trung Quốc. Ngay cả khi chính phủ Trung Quốc thắt chặt kiểm soát lĩnh vực này, High-Flyer vẫn quản lý hàng chục tỉ nhân dân tệ, theo hai người trong ngành.
Sức mạnh tính toán
Thành công của DeepSeek với mô hình AI giá rẻ dựa trên khoản đầu tư kéo dài hàng thập kỷ vào nghiên cứu và sức mạnh tính toán của High-Flyer, theo ba nguồn tin.
High-Flyer là một trong những đơn vị tiên phong sớm trong giao dịch AI. Một lãnh đạo cấp cao của High-Flyer từng tuyên bố vào năm 2020 rằng quỹ này đang "đặt cược tất cả" vào AI bằng cách tái đầu tư 70% doanh thu, chủ yếu cho nghiên cứu AI.
High-Flyer đã chi 1,2 tỉ nhân dân tệ để xây dựng hai cụm siêu máy tính AI vào năm 2020 và 2021. Cụm thứ hai, Fire-Flyer II, bao gồm khoảng 10.000 chip Nvidia A100, được sử dụng để huấn luyện các mô hình AI.
DeepSeek chưa được thành lập vào thời điểm đó, vì vậy sự tích lũy sức mạnh tính toán này đã khiến cơ quan quản lý chứng khoán Trung Quốc chú ý, theo một người có hiểu biết trực tiếp về suy nghĩ của giới chức.
"Các cơ quan quản lý muốn biết tại sao họ lại cần nhiều chip như vậy? Họ sẽ sử dụng nó như thế nào? Điều đó sẽ có tác động gì đến thị trường?", người này nói.
Các nhà chức trách cuối cùng đã quyết định không can thiệp, động thái trở thành yếu tố then chốt cho sự phát triển của DeepSeek. Mỹ cấm xuất khẩu chip Nvidia A100 sang Trung Quốc vào năm 2022, nhưng lúc đó Fire-Flyer II đã đi vào hoạt động.
Trung Quốc hiện ca ngợi DeepSeek, nhưng yêu cầu công ty không tiếp xúc với truyền thông nếu chưa được phê duyệt, theo một nguồn tin quen thuộc với quan điểm của giới chức nước này.
Chính quyền Trung Quốc đã yêu cầu Lương Văn Phong kín tiếng vì lo ngại rằng quá nhiều sự chú ý từ truyền thông có thể gây ra những tác động không mong muốn, nguồn tin cho biết.
Văn phòng Quốc vụ viện, Bộ Thương mại Trung Quốc và cơ quan quản lý chứng khoán nước này không phản hồi câu hỏi tìm kiếm bình luận của Reuters.
Là một trong số ít công ty sở hữu cụm chip A100 quy mô lớn, High-Flyer và DeepSeek đã thu hút được một số tài năng nghiên cứu hàng đầu Trung Quốc, hai cựu nhân viên cho biết.
"Điểm lợi thế lớn nhất của tài nguyên tính toán khổng lồ là cho phép thực hiện các thử nghiệm quy mô lớn", một cựu nhân viên DeepSeek nói.
Một số doanh nhân AI phương Tây, gồm cả Alexandr Wang (Giám đốc điều hành Scale AI), tuyên bố rằng DeepSeek có tới 50.000 chip Nvidia cao cấp - hiện bị cấm xuất khẩu sang Trung Quốc. Tuy nhiên, Alexandr Wang chưa đưa ra bằng chứng cho thông tin này.
DeepSeek chưa lên tiếng về các tuyên bố của Alexandr Wang. Hai cựu nhân viên cho rằng thành công của DeepSeek đến từ việc Lương Văn Phong tập trung vào kiến trúc AI tiết kiệm chi phí hơn.
DeepSeek sử dụng các kỹ thuật như Mixture-of-Experts (MoE) và multihead latent attention (MLA), giúp giảm đáng kể chi phí tính toán, theo các bài nghiên cứu của công ty.
Kỹ thuật MoE chia mô hình AI thành các khu vực chuyên môn khác nhau và chỉ kích hoạt những phần liên quan đến truy vấn, thay vì sử dụng toàn bộ mô hình như các kiến trúc phổ biến khác.
Kiến trúc MLA cho phép mô hình xử lý đồng thời nhiều khía cạnh của một thông tin, giúp nó phát hiện các chi tiết quan trọng hiệu quả hơn.
Trong khi một số đối thủ, gồm cả Mistral (Pháp), cũng phát triển các mô hình AI dựa trên MoE, DeepSeek là công ty đầu tiên dựa nhiều vào kiến trúc này mà vẫn đạt được hiệu suất ngang bằng với các mô hình có chi phí cao hơn.
Theo ước tính của công ty môi giới Bernstein vào đầu tháng 2, mức giá sử dụng mô hình AI của DeepSeek rẻ hơn từ 20 đến 40 lần so với OpenAI.
Hiện tại, các gã khổng lồ công nghệ phương Tây và Trung Quốc vẫn tiếp tục đầu tư mạnh vào AI, nhưng thành công của DeepSeek với R1 và mô hình trước đó là V3, đã khiến một số công ty phải điều chỉnh chiến lược.
OpenAI phải giảm giá trong tháng 2 này, trong khi Google cũng giới thiệu các gói sử dụng Gemini với mức giá ưu đãi. Sau khi R1 ra mắt, OpenAI đã tung ra mô hình o3-mini, sử dụng ít tài nguyên tính toán hơn.
Adnan Masood, chuyên gia tại nhà cung cấp dịch vụ công nghệ UST (Mỹ), nói với Reuters rằng phòng thí nghiệm của ông đã thực hiện các bài đánh giá và nhận thấy R1 thường sử dụng số lượng token (đơn vị dữ liệu mà AI xử lý) nhiều gấp ba lần so với o3-mini để thực hiện các tác vụ suy luận.
Sự ủng hộ của chính quyền Trung Quốc
Ngay cả trước khi R1 thu hút sự chú ý toàn cầu, đã có dấu hiệu cho thấy DeepSeek nhận được sự ủng hộ của chính quyền Trung Quốc. Vào tháng 1, truyền thông nhà nước đưa tin Lương Văn Phong đã tham dự một cuộc họp với Thủ tướng Trung Quốc Lý Cường tại thủ đô Bắc Kinh với tư cách là đại diện của ngành AI, trước lãnh đạo của nhiều công ty nổi tiếng hơn.
Sự chú ý sau đó với khả năng cạnh tranh về chi phí của các mô hình DeepSeek đã củng cố niềm tin từ Trung Quốc rằng nước này có thể vượt mặt Mỹ về đổi mới công nghệ. Các doanh nghiệp và cơ quan chính phủ Trung Quốc tích cực ứng dụng mô hình AI DeepSeek với tốc độ chưa từng thấy ở các công ty khác.
Ít nhất 13 chính quyền thành phố của Trung Quốc và 10 công ty năng lượng thuộc sở hữu nhà nước cho biết đã triển khai mô hình AI DeepSeek vào hệ thống của mình. Các tập đoàn công nghệ lớn như Lenovo, Baidu và Tencent (chủ sở hữu của WeChat - ứng dụng mạng xã hội lớn nhất Trung Quốc) cũng tích hợp các mô hình AI DeepSeek vào sản phẩm của họ.
“Chủ tịch Trung Quốc Tập Cận Bình và Thủ tướng Lý Cường đã thể hiện sự ủng hộ với DeepSeek. Giờ thì ai cũng ủng hộ họ", Alfred Wu, chuyên gia về chính sách Trung Quốc tại Trường Chính sách Công Lý Quang Diệu ở Singapore, bình luận.
Sự ủng hộ này diễn ra trong bối cảnh một số chính phủ từ Hàn Quốc đến Ý gỡ bỏ chatbot AI DeepSeek khỏi các kho ứng dụng, viện dẫn lo ngại về quyền riêng tư.
"Nếu DeepSeek trở thành mô hình AI chủ đạo trong các cơ quan nhà nước Trung Quốc, những cơ quan quản lý phương Tây có thể coi đây là lý do để gia tăng các hạn chế với chip AI hoặc hợp tác phần mềm", Stephen Wu, chuyên gia AI và nhà sáng lập quỹ đầu cơ Carthage Capital, nhận định.
Lương Văn Phong thừa nhận rằng việc hạn chế thêm với chip AI tiên tiến là một thách thức.
"Vấn đề của chúng tôi chưa bao giờ là vốn, mà là lệnh cấm vận với các chip cao cấp", ông vào tháng 7.2024.