DeepSeek dựa vào đội ngũ 'thiên tài trẻ' để đấu với các gã khổng lồ AI Mỹ, bị tố sao chép o1 của OpenAI
DeepSeek ưu tiên tuyển dụng các sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp trong lĩnh vực trí tuệ nhân tạo (AI), phù hợp với định hướng ưu tiên năng lực hơn kinh nghiệm của công ty.
DeepSeek, công ty khởi nghiệp AI có trụ sở tại thành phố Hàng Châu (Trung Quốc), đã gây bất ngờ cho thế giới công nghệ với một mô hình mạnh mẽ được phát triển với ngân sách hạn chế. Theo các nguồn tin nội bộ và các báo cáo từ truyền thông Trung Quốc, DeepSeek đang đặt cược vào “vũ khí bí mật” là đội ngũ các “thiên tài trẻ” để đối đầu với những gã khổng lồ AI giàu có của Mỹ.
Vào ngày 26.12.2024, DeepSeek đã ra mắt mô hình ngôn ngữ lớn DeepSeek V3. DeepSeek V3 được đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms (chủ sở hữu Facebook) và OpenAI (cha đẻ ChatGPT).
Bước đột phá này được đánh giá là quan trọng vì có thể mở ra con đường để Trung Quốc vượt Mỹ về năng lực AI, bất chấp những hạn chế trong việc tiếp cận các chip tiên tiến và nguồn tài chính.
Đằng sau bước đột phá của DeepSeek là nhà sáng lập kín tiếng và một nhóm nghiên cứu mới thành lập, theo cuộc kiểm tra các tác giả được ghi nhận trên báo cáo kỹ thuật mô hình V3, các trang web nghề nghiệp, cuộc phỏng vấn với cựu nhân viên cũng như phương tiện truyền thông địa phương.
Báo cáo kỹ thuật của mô hình V3 được thực hiện bởi 150 nhà nghiên cứu và kỹ sư Trung Quốc, cùng với nhóm 31 người chuyên về nghiên cứu tự động hóa dữ liệu.
DeepSeek V3 được tách ra vào năm 2023 từ High Flyer-Quant, công ty quản lý quỹ đầu tư. Doanh nhân đứng sau DeepSeek là ông Liang Wenfeng, người sáng lập High Flyer-Quant, từng nghiên cứu về AI tại Đại học Chiết Giang. Tên của ông cũng xuất hiện trong báo cáo kỹ thuật.
Trong một cuộc phỏng vấn với trang truyền thông trực tuyến 36Kr vào tháng 5.2023, Liang Wenfeng cho biết hầu hết nhà phát triển tại DeepSeek đều là sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp AI, phù hợp với định hướng ưu tiên năng lực hơn kinh nghiệm của công ty. Liang Wenfeng nói: “Các vai trò kỹ thuật cốt lõi của chúng tôi chủ yếu được đảm nhận bởi những sinh viên mới tốt nghiệp hoặc những người chỉ có từ một đến hai năm kinh nghiệm làm việc”.
Trong số các nhân tài AI của DeepSeek, Gao Huazuo và Zeng Wangding là hai người được công ty nêu tên vì đã thực hiện “những đổi mới quan trọng trong nghiên cứu kiến trúc MLA”.
Kiến trúc MLA (Multi-head Latent Attention) là một dạng kiến trúc trong các mô hình AI, đặc biệt là trong các mô hình ngôn ngữ lớn.
Kiến trúc MLA kết hợp hai khái niệm chính:
Multi-head Attention: Một cơ chế đã được sử dụng phổ biến trong mô hình Transformer, giúp mô hình có thể xử lý nhiều mối quan hệ và thông tin từ các phần khác nhau trong dữ liệu đầu vào.
Latent Representations: Các đặc điểm được trừu tượng hóa từ dữ liệu đầu vào, không còn là dữ liệu gốc mà là các thông tin đại diện cho cấu trúc hoặc ý nghĩa sâu sắc hơn.
Kiến trúc MLA được thiết kế để tối ưu hóa việc sử dụng các cơ chế attention trong không gian tiềm ẩn, thay vì chỉ tập trung vào các đặc điểm bề mặt của dữ liệu.
Cơ chế Attention là một kỹ thuật quan trọng trong lĩnh vực học sâu, đặc biệt trong các mô hình xử lý ngôn ngữ tự nhiên và thị giác máy tính. Nó cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào khi thực hiện một nhiệm vụ cụ thể.
Gao Huazuo tốt nghiệp Đại học Bắc Kinh vào năm 2017 với bằng cử nhân vật lý, trong khi Zeng Wangding bắt đầu học thạc sĩ tại Viện AI của Đại học Bưu chính Viễn thông Bắc Kinh năm 2021. Hai hồ sơ này cho thấy cách tiếp cận khác biệt của DeepSeek trong tuyển dụng tài năng, khi phần lớn các công ty khởi nghiệp AI tại Trung Quốc thường ưu tiên tuyển dụng các nhà nghiên cứu có kinh nghiệm hoặc các tiến sĩ được đào tạo ở nước ngoài, chuyên ngành khoa học máy tính.
Những thành viên chủ chốt khác của đội ngũ DeepSeek gồm Guo Daya (tiến sĩ tốt nghiệp năm 2023 tại Đại học Tôn Trung Sơn), Zhu Qihao và Dai Damai (đều là tiến sĩ mới tốt nghiệp từ Đại học Bắc Kinh).
Một trong những tài năng nổi bật nhất của DeepSeek là Luo Fuli. Luo Fuli đã thu hút sự chú ý khi có thông tin Lei Jun (nhà sáng lập kiêm Giám đốc điều hành Xiaomi) từng đề nghị gói lương lên tới 10 triệu nhân dân tệ mỗi năm (1,4 triệu USD) để mời cô làm việc, nhưng thông tin gần đây cho biết cô vẫn chưa chấp nhận lời mời. Tốt nghiệp thạc sĩ tại Đại học Bắc Kinh, Luo Fuli được truyền thông Trung Quốc gọi là “thần đồng AI”.
DeepSeek V3 được đào tạo trong vòng hai tháng bằng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn, với chi phí chỉ 6 triệu USD.
Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là “ngân sách nực cười”. Thành công này đạt được nhờ sự kết hợp giữa các kiến trúc và kỹ thuật đào tạo mới, bao gồm MLA và DeepSeekMoE, theo trang SCMP.
Đội ngũ “nhân tài AI” của công ty được dẫn dắt bởi nhà sáng lập kín tiếng Liang Wenfeng. Liang Wenfeng là người khiêm tốn nhưng có trực giác và chú ý đến từng chi tiết kỹ thuật, một cựu nhân viên DeepSeek kể cho SCMP với điều kiện giấu tên vì anh không được phép phát biểu công khai.
Ở các cuộc thảo luận nhóm, Liang Wenfeng đôi khi đề xuất giải pháp cho các thành viên trẻ hơn trong đội ngũ của mình bằng cách sử dụng những cụm từ gợi ý thay vì chỉ đạo trực tiếp. Nhiều lần, các thành viên trong đội ngũ nhận ra rằng những gợi ý của Liang Wenfeng đã mang lại hiệu quả. Cựu nhân viên DeepSeek nói thêm rằng Liang Wenfeng giống người cố vấn hơn là ông chủ theo mô hình doanh nghiệp truyền thống.
DeepSeek bị tố sao chép o1 của OpenAI
Vào tháng 9.2024, OpenAI đã phát hành mô hình o1 có "khả năng lý luận vượt trội so với các phiên bản trước đó". Ba tháng sau đó, DeepSeek đã tung ra mô hình lý luận tương tự là V3 khiến OpenAI ngỡ ngàng.
Một bản tin trên trang TechCrunch cuối tháng 12.2024 cho rằng DeepSeek có thể đã sử dụng kết quả từ o1 để đào tạo mô hình AI của riêng mình.
"Họ có lẽ là những người đầu tiên tái tạo o1. Tôi đã hỏi nhiều người ở OpenAI xem họ nghĩ gì về điều này. Họ nói DeepSeek V3 trông giống như cùng một thứ với o1, nhưng không biết DeepSeek đã làm điều này nhanh như vậy như thế nào”.
OpenAI và DeepSeek không trả lời khi được đề nghị bình luận.
DeepSeek V3 được mô tả có thể xử lý khối lượng lớn công việc và tác vụ thông qua văn bản đầu vào "theo cách thông minh nhất", như lập trình, dịch thuật, viết bài luận và email từ lời nhắc. Mô hình AI này được phát hành miễn phí, có thể sử dụng đa mục đích, gồm cả thương mại.
DeepSeek cho biết trong các thử nghiệm nội bộ, V3 "vượt trội so với các mô hình có thể tải về hiện nay", tính cả mã nguồn mở và nguồn đóng. Trong bản chạy thử trên Codeforces - nền tảng cho các cuộc thi lập trình, DeepSeek V3 vượt qua các mô hình khác như Llama 3.1 405B (405 tỉ tham số) của Meta Platforms, GPT-4o của OpenAI và Qwen 2.5 72B (72 tỉ tham số) của Alibaba.
V3 cũng đánh bại đối thủ cạnh tranh trên Aider Polyglot - bài kiểm tra được thiết kế để đo lường khả năng của các mô hình AI.
DeepSeek giới thiệu V3 được đào tạo trên một tập dữ liệu gồm 14.800 tỉ token. Trong khoa học dữ liệu, token được sử dụng để biểu diễn các bit dữ liệu thô, với 1 triệu token tương đương khoảng 750.000 từ.
Không chỉ có bộ dữ liệu đào tạo đồ sộ, V3 có kích thước khổng lồ với 671 tỉ tham số, lớn hơn khoảng 1,6 lần so với Llama 3.1 405B. Tuy nhiên, DeepSeek cho biết V3 không cần quá nhiều GPU (bộ xử lý đồ họa) để vận hành do sử dụng phần cứng hiệu quả.
Tuy nhiên, trong thử nghiệm của TechCrunch và một số chia sẻ của người dùng trên mạng xã hội, DeepSeek V3 lại tự nhận nó là ChatGPT. Khi được yêu cầu giải thích, V3 khẳng định mình là phiên bản của GPT-4, được OpenAI phát hành năm 2023.
Khi đặt câu hỏi liên quan đến API của DeepSeek, V3 lại hướng dẫn cách sử dụng API của OpenAI. Nó thậm chí kể một số câu chuyện cười, những câu đùa dí dỏm theo phong cách GPT-4.
DeepSeek không đề cập đến nguồn dữ liệu đào tạo V3. Tuy nhiên, theo suy đoán của TechCrunch, mô hình có thể đang dùng lại các tập dữ liệu công khai chứa văn bản do GPT-4 tạo ra thông qua ChatGPT.
"Nếu được đào tạo trên những dữ liệu này, DeepSeek V3 có thể đã ghi nhớ một số câu trả lời đầu ra của GPT-4 và lặp lại nguyên văn", TechCrunch bình luận.
Mike Cook, nhà nghiên cứu chuyên về AI tại Đại học Nhà vua London, có quan điểm tương tự. "Rõ ràng mô hình nhận phản hồi thô từ ChatGPT tại một giai đoạn nào đó, nhưng không rõ khi nào. Có thể vô tình, thực tế không hiếm trường hợp tận dụng kết quả của mô hình này để đào tạo mô hình khác", Mike Cook nói.
Mike Cook lưu ý cách này "rất tệ", vì có thể dẫn đến hiện tượng "ảo giác", tạo ra những câu trả lời gây hiểu lầm. "Giống như chụp ảnh bản sao của bản sao, mô hình sẽ dần mất nhiều thông tin và kết nối với thực tế", ông giải thích.
Ngoài ra, Mike Cook cho rằng việc lấy dữ liệu của mô hình này cho cái khác có thể vi phạm điều khoản. Chẳng hạn, OpenAI cấm người dùng sản phẩm của mình sử dụng kết quả đầu ra để phát triển các mô hình cạnh tranh.
Sam Altman, Giám đốc điều hành OpenAI, được cho đã chế giễu DeepSeek. "Thật dễ để sao chép một thứ mà bạn biết là hiệu quả. Thật khó để làm điều gì đó mới mẻ, mạo hiểm và khó khăn khi bạn không biết liệu nó có hiệu quả hay không", Sam Altman viết trên X.