Sau mô hình AI ban đầu gây chấn động, DeepSeek đẩy nhanh ra mắt mô hình mới
Công ty khởi nghiệp Trung Quốc DeepSeek đang tìm cách tận dụng lợi thế sau khi ra mắt mô hình R1 gây chấn động thế giới.

Logo của DeepSeek. Ảnh: AFP/TTXVN
Theo hãng tin Reuters ngày 26/2, DeepSeek đã gây ra đợt bán tháo hơn 1.000 tỷ USD trên thị trường chứng khoán toàn cầu vào tháng trước với một mô hình AI lý luận giá rẻ vượt trội hơn nhiều đối thủ phương Tây.
Hiện, công ty có trụ sở tại Hàng Châu này đang đẩy nhanh kế hoạch ra mắt phiên bản kế nhiệm của mô hình R1 hồi tháng 1.
Theo hai nguồn tin, DeepSeek ban đầu dự kiến phát hành R2 vào đầu tháng 5 nhưng hiện muốn tung ra sớm nhất có thể.
DeepSeek cho biết họ kỳ vọng mô hình mới sẽ cải thiện khả năng lập trình và có thể suy luận bằng các ngôn ngữ ngoài tiếng Anh. Chi tiết về mốc thời gian đẩy nhanh ra mắt R2 chưa từng được đưa tin trước đó.
Các đối thủ vẫn đang tìm cách đánh giá tác động của R1, mô hình được xây dựng bằng các con chip Nvidia kém mạnh hơn nhưng vẫn có tính cạnh tranh với những sản phẩm do các tập đoàn công nghệ Mỹ phát triển với chi phí hàng trăm tỷ USD.
Ông Vijayasimha Alilughatta, Giám đốc điều hành của công ty dịch vụ công nghệ Ấn Độ Zensar, nhận định: “DeepSeek ra mắt mô hình R2 có thể là một thời khắc mang tính bước ngoặt trong ngành AI”. Theo ông, thành công của DeepSeek trong tạo ra các mô hình AI tiết kiệm chi phí có thể thúc đẩy các công ty trên toàn cầu đẩy nhanh nỗ lực, phá vỡ thế độc quyền của một số ít tập đoàn lớn trong ngành.
R2 có khả năng khiến chính phủ Mỹ lo ngại, khi nước này xác định dẫn đầu trong lĩnh vực AI là ưu tiên quốc gia. Trong khi đó, R2 ra mắt có thể khiến chính quyền và doanh nghiệp Trung Quốc thêm quyết tâm, khi hàng chục công ty nước này tuyên bố đã bắt đầu tích hợp các mô hình của DeepSeek vào sản phẩm của mình.
Mô hình quản lý khác biệt tại DeepSeek
Thông tin về DeepSeek vẫn rất ít ỏi. Nhà sáng lập Lương Văn Phong trở thành tỷ phú nhờ quỹ đầu tư định lượng High-Flyer. Ông Lương chưa phát biểu trước truyền thông kể từ tháng 7/2024.
Ông Lương sinh năm 1985 tại một ngôi làng ở tỉnh Quảng Đông, miền Nam Trung Quốc. Sau đó, ông lấy bằng kỹ sư truyền thông tại Đại học Chiết Giang danh tiếng.
Một trong những công việc đầu tiên của ông là điều hành bộ phận nghiên cứu tại một công ty hình ảnh thông minh ở Thượng Hải.
Tại DeepSeek và High-Flyer, ông Lương cũng tránh các phương thức quản lý cứng nhắc của các tập đoàn công nghệ Trung Quốc, vốn nổi tiếng với hệ thống cấp bậc chặt chẽ, trả lương thấp cho nhân viên trẻ và quy tắc “996” - làm việc từ 9 giờ sáng đến 9 giờ tối, sáu ngày một tuần.
Ông Lương mở văn phòng ở Bắc Kinh gần Đại học Thanh Hoa và Đại học Bắc Kinh, hai cơ sở giáo dục danh giá nhất Trung Quốc. Ông thường xuyên tham gia vào các chi tiết kỹ thuật và sẵn sàng làm việc cùng các thực tập sinh thuộc thế hệ trẻ và những sinh viên mới tốt nghiệp, những người chiếm phần lớn lực lượng lao động của công ty. Họ cũng cho biết thường chỉ làm việc 8 tiếng một ngày trong một môi trường hợp tác.
Benjamin Liu, một nhà nghiên cứu 26 tuổi rời công ty hồi tháng 9, kể: “Ông Lương trao cho chúng tôi quyền kiểm soát và coi chúng tôi là chuyên gia. Ông ấy liên tục đặt câu hỏi và học hỏi cùng chúng tôi. DeepSeek cho phép tôi chịu trách nhiệm về những phần quan trọng trong quy trình, điều đó rất thú vị”.
Trong khi Baidu và các tập đoàn công nghệ Trung Quốc khác chạy đua phát triển phiên bản AI hướng đến người tiêu dùng vào năm 2023 để tận dụng làn sóng AI toàn cầu, ông Lương nói với hãng truyền thông Trung Quốc Waves năm ngoái rằng ông cố tình tránh chi tiêu mạnh vào phát triển ứng dụng, thay vào đó tập trung vào nâng cao chất lượng mô hình AI.
Cả DeepSeek và High-Flyer đều nổi tiếng vì trả lương cao. Tại High-Flyer, một nhà khoa học dữ liệu cấp cao có thể kiếm 1,5 triệu nhân dân tệ mỗi năm, trong khi các công ty đối thủ hiếm khi trả quá 800.000 nhân dân tệ.
Sự hào phóng này là nhờ High-Flyer, một trong những quỹ đầu tư định lượng thành công nhất Trung Quốc. Dù lĩnh vực này bị chính phủ siết chặt, nhưng quỹ vẫn quản lý hàng chục tỷ nhân dân tệ.
DeepSeek đạt được thành công với mô hình AI giá rẻ nhờ khoản đầu tư lớn vào nghiên cứu và sức mạnh tính toán suốt một thập kỷ của High-Flyer. Năm 2020, một giám đốc cấp cao của quỹ tuyên bố công ty sẽ dồn toàn lực cho AI, tái đầu tư 70% doanh thu, chủ yếu vào nghiên cứu AI.
High-Flyer đã chi 1,2 tỷ nhân dân tệ cho hai cụm siêu máy tính AI vào năm 2020 và 2021. Cụm thứ hai, Fire-Flyer II, bao gồm khoảng 10.000 chip Nvidia A100, được sử dụng để đào tạo mô hình AI.
DeepSeek chưa thành lập vào thời điểm đó, nhưng việc tích lũy sức mạnh tính toán đã thu hút sự chú ý của các cơ quan quản lý chứng khoán Trung Quốc. Họ quyết định không can thiệp, một động thái mang tính quyết định đối với DeepSeek khi Mỹ cấm xuất khẩu chip A100 sang Trung Quốc vào năm 2022.
Giới chức đã yêu cầu ông Lương Văn Phong giữ thái độ kín tiếng vì họ lo ngại rằng xuất hiện trên truyền thông sẽ thu hút sự chú ý không cần thiết.
Là một trong số ít công ty sở hữu cụm A100 quy mô lớn, High-Flyer và DeepSeek đã thu hút được một số nhân tài nghiên cứu hàng đầu của Trung Quốc.
Theo ước tính của các nhà phân tích tại công ty môi giới Bernstein hồi đầu tháng 2, mức giá của DeepSeek rẻ hơn từ 20 đến 40 lần so với chi phí của OpenAI cho các mô hình tương đương.
Hiện tại, các tập đoàn công nghệ phương Tây và Trung Quốc vẫn đang lên kế hoạch chi tiêu mạnh tay cho AI, nhưng thành công của DeepSeek với R1 và mô hình V3 trước đó đã khiến một số công ty phải điều chỉnh chiến lược.
OpenAI đã giảm giá trong tháng này, trong khi Gemini của Google giới thiệu các cấp truy cập giá rẻ hơn. Kể từ khi R1 ra mắt, OpenAI cũng đã tung ra mô hình O3-Mini sử dụng ít tài nguyên tính toán hơn.
Sự hỗ trợ từ Trung Quốc
Ngay trước khi R1 thu hút chú ý toàn cầu, đã có dấu hiệu cho thấy DeepSeek được Bắc Kinh ưu ái. Vào tháng 1, truyền thông nhà nước đưa tin ông Lương Văn Phong đã tham dự một cuộc họp với Thủ tướng Trung Quốc Lý Cường tại Bắc Kinh với tư cách là đại diện của lĩnh vực AI, vượt qua nhiều lãnh đạo của các công ty lớn hơn.
Tính cạnh tranh về chi phí của các mô hình DeepSeek đã củng cố niềm tin của Bắc Kinh rằng họ có thể đổi mới vượt Mỹ. Các công ty và cơ quan chính phủ Trung Quốc đã đón nhận các mô hình DeepSeek với tốc độ chưa từng có.
Ít nhất 13 chính quyền thành phố và 10 công ty năng lượng nhà nước Trung Quốc tuyên bố đã tích hợp DeepSeek vào hệ thống. Các tập đoàn công nghệ như Lenovo, Baidu và Tencent cũng đã tích hợp mô hình DeepSeek vào sản phẩm.
Ông Alfred Wu, chuyên gia về chính sách Trung Quốc tại Trường Chính sách công Lý Quang Diệu của Singapore, nhận định: “Chủ tịch Tập Cận Bình và ông Lý Cường đã phát tín hiệu rằng họ ủng hộ DeepSeek”.
Bất chấp DeepSeek, người dùng ChatGPT vẫn tăng

Logo của OpenAI và ChatGPT. Ảnh: AFP/TTXVN
Theo kênh CNBC ngày 20/2, OpenAI tiếp tục mở rộng tầm bao phủ với tốc độ ấn tượng, bất chấp áp lực từ các đối thủ cạnh tranh như DeepSeek. OpenAi đã ghi nhận trong tháng 2 có 400 triệu người dùng hoạt động hằng tuần, tăng 33% so với con số 300 triệu trong tháng 12/2024. Đây là lần đầu tiên dữ liệu này được công bố.
Theo Giám đốc vận hành OpenAI Brad Lightcap, ChatGPT ngày càng phổ biến là do nhiều yếu tố, trong đó có khả năng đáp ứng ngày càng tốt hơn nhu cầu của người dùng. Quá trình này diễn ra tự nhiên khi ngày càng có nhiều người tiếp cận và nhận thấy tiện ích của công cụ. Tốc độ lan truyền của ChatGPT chủ yếu dựa vào yếu tố truyền miệng, khi người dùng giới thiệu cho bạn bè và đồng nghiệp. Theo thời gian, nhiều người dần tìm ra cách tận dụng công cụ này để hỗ trợ công việc và cuộc sống, từ đó thúc đẩy tăng trưởng bền vững.
Không chỉ mảng người dùng cá nhân phát triển mạnh, OpenAI cũng đang mở rộng nhanh chóng phân khúc khách hàng doanh nghiệp. Hiện tại, công ty có khoảng 2 triệu doanh nghiệp trả phí, gấp đôi so với tháng 9 năm ngoái. Ông Lightcap cho biết nhiều nhân viên ban đầu sử dụng ChatGPT cho mục đích cá nhân, sau đó đề xuất doanh nghiệp triển khai công cụ này để tối ưu quy trình làm việc. Ông cho rằng sự quen thuộc của người dùng cá nhân với ChatGPT đã giúp công ty dễ dàng mở rộng sang lĩnh vực doanh nghiệp.