Cuộc đua công nghệ Mỹ - Trung - Bài 1: Chiến lược độc đáo của DeepSeek
Ngày 27/1, ứng dụng DeepSeek đã vươn lên đứng đầu bảng xếp hạng các ứng dụng được tải xuống miễn phí trên 'chợ phần mềm' App Store tại cả Trung Quốc và Mỹ, vượt qua cả ChatGPT của OpenAI.
DeepSeek là một công ty trí tuệ nhân tạo (AI) của Trung Quốc mới thành lập hơn một năm. Dù còn non trẻ, nhưng DeepSeek đã gây chú ý và khiến các công ty công nghệ “khổng lồ” ở Silicon Valley lo ngại, khi giới thiệu các mô hình AI có hiệu suất ngang tầm những chatbot hàng đầu thế giới, nhưng với chi phí phát triển thấp hơn nhiều.
Ưu điểm của DeepSeek so với AI tạo sinh của Mỹ là gì?
Theo phân tích của tờ “Liên hợp buổi sáng”, phiên bản đầy đủ của mô hình ngôn ngữ lớn V3 của DeepSeek có dung lượng gần 700 gigabyte, lớn đến mức chỉ có thể chạy trên phần cứng chuyên nghiệp, có kích thước khổng lồ với 685 tỷ tham số. Trong khi đó, mô hình Llama 3.1 của Meta, công ty mẹ của Facebook, chỉ có 405 tỷ tham số. Kết quả thử nghiệm từ nền tảng mã hóa trí tuệ nhân tạo Aider cho thấy hiệu suất của DeepSeek chỉ đứng sau mô hình o1 của OpenAI.
Điều thậm chí còn tuyệt vời hơn nữa là DeepSeek đạt được hiệu suất cao nhất với chi phí cực kỳ thấp. Công ty nghiên cứu độc lập Melius Research chỉ ra rằng DeepSeek có khả năng đã thành thạo phương pháp sử dụng bộ nhớ hiệu quả hơn và các chiến lược học tập tối ưu, để giảm chi phí đào tạo mô hình. Chi phí tạo ra thông tin cho mô hình của DeepSeek chỉ bằng 1/10 so với mô hình ChatGPT của OpenAI.
Ưu điểm của DeepSeek còn nằm ở việc cải tiến và tối ưu hóa thuật toán, giúp tiết kiệm năng lượng tính toán. Dữ liệu đầu vào và ngữ liệu của DeepSeek không đòi hỏi khối lượng dữ liệu và năng lượng tính toán lớn như các phần mềm AI tiên tiến khác.
Một số ước tính cho thấy rằng các mô hình AI lớn của phương Tây sử dụng 16.000 chất bán dẫn (chip) chuyên dụng. Tài liệu của DeepSeek cho thấy họ chỉ sử dụng khoảng 2.048 chip Nvidia H800, con chip này ban đầu là phiên bản đặc biệt dành cho thị trường Trung Quốc, với một số thông số hiệu suất được giảm xuống để tuân thủ các biện pháp kiểm soát xuất khẩu chip cao cấp của Mỹ đối với Trung Quốc vào năm 2022. Vào tháng 10/2023, H800 cũng được đưa vào lệnh cấm xuất khẩu của Mỹ sang Trung Quốc.
Nhược điểm của DeepSeek là gì?
Giống như các mô hình AI khác tại Trung Quốc, DeepSeek có cơ chế kiểm duyệt nội dung. Nó từ chối trả lời về các chủ đề nhạy cảm. Tính đến thời điểm hiện tại, các mô hình AI của Mỹ vẫn có những khả năng mà các đối thủ Trung Quốc không thể sánh kịp. Ví dụ, một dự án nghiên cứu của Google cho phép trình duyệt web của người dùng trò chuyện với một chatbot có tên là Gemini có thể giúp hiện thực hóa triển vọng về các "đại lý" trí tuệ nhân tạo tương tác với Internet. Chatbot của OpenAI không chỉ giúp người dùng viết mã mà còn giúp họ chạy mã.
OpenAI cũng đang phát triển một số công nghệ tiên tiến, bao gồm "siêu đặc vụ cấp tiến sĩ" được cho là có khả năng tương đương với các chuyên gia con người.
Ai là người tạo ra DeepSeek?
Vào năm 2023, DeepSeek, khi đó là một phòng thí nghiệm nhỏ có trụ sở tại thành phố Hàng Châu (Trung Quốc), đã được ông Lương Văn Phong và một nhóm kỹ sư trẻ người Trung Quốc thành lập với mục đích phát triển các mô hình AI mã nguồn mở. Chỉ hơn một năm sau khi hình thành, DeepSeek đã ra mắt sản phẩm cốt lõi DeepSeek-R1 vào ngày 20/1/2025, gây sốc cho giới công nghệ toàn cầu.
Mô hình R1 có hiệu suất ngang bằng hoặc vượt trội so với các mô hình đối thủ trên nhiều bảng đánh giá quan trọng. Nó đạt kết quả cao trên AIME 2024 cho bài toán, MMLU cho kiến thức tổng quát và AlpacaEval 2.0 cho khả năng hỏi đáp. R1 cũng nằm trong nhóm dẫn đầu trên bảng xếp hạng Chatbot Arena do UC Berkeley quản lý. Mô hình này được đánh giá là tốt gần như OpenAI của gã khổng lồ Mỹ, nhưng chi phí đào tạo chưa tới 6 triệu USD, chỉ bằng vài phần mười so với OpenAI và sử dụng chip hiệu suất thấp.
Ngày 27/1, ứng dụng DeepSeek đã vươn lên đứng đầu bảng xếp hạng các ứng dụng được tải xuống miễn phí trên “chợ phần mềm” App Store tại cả Trung Quốc và Mỹ, vượt qua cả ChatGPT của OpenAI. Tiếng vang của DeepSeek đã khiến giá cổ phiếu của Nvidia, nhà sản xuất chip hàng đầu của Mỹ, bất ngờ giảm mạnh 17% và giá trị thị trường của công ty này bốc hơi gần 600 tỷ USD trong cùng ngày, lập kỷ lục về mức giảm trong một ngày cao nhất của một công ty trong lịch sử thị trường chứng khoán Mỹ. Không những vậy, cổ phiếu của các công ty công nghệ châu Âu và Mỹ cũng giảm mạnh.
Thế giới vốn tin rằng việc phát triển AI hàng đầu đòi hỏi phải sử dụng nhiều chip cao cấp đắt tiền. Do đó, nếu Mỹ chặn khả năng tiếp cận chip cao cấp của Trung Quốc, nước này có thể loại Trung Quốc khỏi cuộc cạnh tranh về AI và khiến cường quốc châu Á chịu tổn thất lớn trong lĩnh vực siêu máy tính, máy học, thuật toán và phát triển phần mềm. Nhưng DeepSeek đã phá vỡ mặc định này, điều này tương đương với việc mở ra con đường phát triển cho Trung Quốc trong lĩnh vực AI.
Có thể khẳng định DeepSeek của các nhà khoa học Trung Quốc đã gây ra cú sốc lớn cho ngành công nghiệp AI của phương Tây. Theo tạp chí “The Economist”, trong hai năm qua, các phòng thí nghiệm AI lớn ở Mỹ đang cạnh tranh để xem mô hình của công ty nào có thể đạt được sự cải thiện nhỏ về chất lượng, thay vì quan tâm xem công ty nào có thể tạo ra mô hình rẻ, chất lượng cao và nhanh hơn. Về mặt này, DeepSeek chứng tỏ có cách tiếp cận tốt hơn so với đối thủ cạnh tranh.
Người sáng lập DeepSeek là kỹ sư Lương Văn Phong (Liang Wenfeng), 40 tuổi, tốt nghiệp Đại học Chiết Giang. Ông Lương Văn Phong có nền tảng về tài chính và từng là CEO của một công ty quỹ đầu cơ, quản lý quỹ phòng hộ High-Flyer do ông và các đối tác đồng sáng lập vào năm 2015, sử dụng AI để phân tích dữ liệu tài chính nhằm đưa ra quyết định đầu tư và thực hiện các giao dịch định lượng. Các quỹ đầu tư tư nhân do High-Flyer quản lý từng vượt giá trị 100 tỷ nhân dân tệ (13,91 tỷ USD) và bản thân ông Lương Văn Phong đã trở thành tỷ phú, sử dụng số tiền thu được từ các quỹ phòng hộ để hỗ trợ phòng thí nghiệm AI của mình. Trước khi thành lập DeepSeek, ông Lương Văn Phong đã tích trữ hàng chục nghìn chip GPU Nvidia vào năm 2021.
Đáng chú ý, ông Lương Văn Phong từng là khách mời danh dự tại hội thảo chuyên gia do Thủ tướng Trung Quốc Lý Cường chủ trì. Một số phương tiện truyền thông Anh và Mỹ nhận định DeepSeek có thể khiến các nhà đầu tư lo sợ, ảnh hưởng đến biên lợi nhuận cao của các công ty công nghệ và cản trở nỗ lực của Mỹ nhằm vào sự phát triển AI của Trung Quốc, nhưng có thể mang lại lợi ích cho toàn bộ ngành AI và tất cả người dùng.
DeepSeek của kỹ sư Lương Văn Phong khiến mọi người phải suy nghĩ lại và đánh giá xem liệu mô hình kinh doanh của các công ty công nghệ và nhà sản xuất chip của Mỹ hấp thụ khoản đầu tư lớn rồi kiếm lợi nhuận độc quyền có hợp lý và bền vững hay không? Nếu kết quả mà DeepSeek đưa ra là đúng - không có chi phí ẩn hoặc trợ cấp từ Chính phủ Trung Quốc - điều đó có nghĩa là AI có thể được con người sử dụng rộng rãi hơn với giá rẻ hơn và trong nhiều tình huống ứng dụng hơn. Đồng thời, mô hình này giúp chuyển đổi năng suất, cải thiện cuộc sống của nhiều người hơn và không bị độc quyền bởi một quốc gia nào. Cuối cùng, người tiêu dùng sẽ là người hưởng lợi lớn và các quốc gia vừa và nhỏ khác ngoài Trung Quốc và Mỹ cũng sẽ được hưởng lợi.
Giống như mô hình Tongyi Qianwen của Alibaba, DeepSeek cũng sử dụng các mô hình nguồn mở và mỗi khi một mô hình mới được công bố, công ty cũng sẽ xuất bản các tài liệu tiết lộ nhiều chi tiết kỹ thuật. Về mặt kinh doanh, DeepSeek cung cấp nội dung miễn phí mà OpenAI muốn tính phí. Trong quan hệ quốc tế, tất cả các quốc gia trên thế giới đều có thể sử dụng AI nguồn mở do công ty phát triển. Điều này mang đến cho nhiều quốc gia một lựa chọn khác, giảm sự phụ thuộc vào Mỹ và Trung Quốc.
Trong cuộc phỏng vấn với phương tiện truyền thông Trung Quốc vào tháng 7/2024, ông Lương Văn Phong tuyên bố xuất phát điểm của ông không phải là tận dụng cơ hội để kiếm tiền, mà là tiến lên vị trí hàng đầu về công nghệ và thúc đẩy sự phát triển của toàn bộ hệ sinh thái, ông cho rằng khoảng cách giữa Trung Quốc và Mỹ không phải là một hay hai năm, mà là sự khác biệt giữa tính nguyên bản và bắt chước, AI Trung Quốc không phải lúc nào cũng đi theo sau hoặc đi theo miễn phí.
Truyền thông Trung Quốc cũng chỉ ra rằng thành công của DeepSeek có liên quan chặt chẽ đến chiến lược độc đáo của kỹ sư Lương Văn Phong trong quản lý nhóm và nghiên cứu - phát triển công nghệ. “Ông chủ” của DeepSeek từng nói rằng nhóm của ông không có bất kỳ thiên tài bí ẩn nào và chỉ gồm những người trẻ tuổi có ít kinh nghiệm. Ông tin rằng sự đổi mới đòi hỏi phải thoát khỏi sự trì trệ và kinh nghiệm đôi khi có thể trở thành gánh nặng./.