CEO Microsoft: DeepSeek-R1 là mô hình AI đầu tiên có thể cạnh tranh ngang ngửa với OpenAI

7 giờ trước Gốc

Satya Nadella, Giám đốc điều hành Microsoft, cho biết R1 của DeepSeek là mô hình trí tuệ nhân tạo (AI) đầu tiên mà ông thấy có thể cạnh tranh ngang ngửa với OpenAI.

"OpenAI đã đi trước quá xa đến mức không ai thực sự bắt kịp. DeepSeek, đặc biệt là R1, là mô hình AI đầu tiên mà tôi thấy đã đạt được những thành tích đáng kể khi so với OpenAI", Satya Nadella nói trong một cuộc phỏng vấn với tạp chí Bloomberg Businessweek được đăng hôm 16.5.

Microsoft hiện là nhà đầu tư lớn nhất vào OpenAI (hơn 13 tỉ USD).

Ông Satya Nadella đánh giá cao R1 của DeepSeek - Ảnh: Getty Images

Vào tháng 1, công ty khởi nghiệp DeepSeek (Trung Quốc) đã khiến các nhà đầu tư lo lắng sau khi ứng dụng chatbot miễn phí của họ leo lên vị trí số một trên bảng xếp hạng Apple App Store tại Mỹ.

V3 và R1, hai mô hình AI nguồn mở hiệu suất cao được DeepSeek đào tạo với chi phí thấp, từng làm dấy lên làn sóng bán tháo cổ phiếu liên quan đến AI cuối tháng 1. Lý do vì các nhà đầu tư lo ngại rằng điều này có thể làm giảm nhu cầu với phần cứng AI như chip của Nvidia.

Từ tháng 1, Microsoft đã bắt đầu cung cấp các phiên bản của R1 trên nền tảng đám mây Azure AI Foundry. Ngoài DeepSeek, nền tảng này còn có mô hình AI từ các công ty như OpenAI, Meta Platforms và Mistral.

Azure AI Foundry là nền tảng tích hợp trên đám mây của Microsoft Azure, được thiết kế để hỗ trợ các nhà phát triển và kỹ sư trong việc xây dựng, đào tạo, đánh giá và triển khai các mô hình AI. Nó cung cấp một môi trường tập trung với các công cụ và tài nguyên cần thiết để:

- Truy cập và khám phá mô hình: Cung cấp thư viện đa dạng các mô hình AI, gồm cả các mô hình tiên tiến hàng đầu và nguồn mở từ nhiều nhà cung cấp khác nhau như OpenAI, Meta Platforms, Mistral, DeepSeek…

- Xây dựng và tùy chỉnh: Cho phép nhà phát triển tùy chỉnh các mô hình AI có sẵn hoặc xây dựng mô hình mới cho các trường hợp sử dụng cụ thể của họ.

- Đánh giá và cải tiến: Cung cấp các công cụ để kiểm tra, đo lường hiệu suất và đảm bảo tính an toàn, có trách nhiệm của các mô hình AI.

- Triển khai và quản lý: Hỗ trợ triển khai các ứng dụng AI ở quy mô lớn và quản lý vòng đời của chúng trên nền tảng Azure.

- Làm việc với dữ liệu riêng: Hỗ trợ kỹ thuật tạo sinh có tăng cường truy xuất để tích hợp dữ liệu riêng của doanh nghiệp vào các mô hình AI, giúp chúng đưa ra phản hồi phù hợp và chính xác hơn.

Tạo sinh có tăng cường truy xuất là kỹ thuật được sử dụng để cải thiện khả năng của mô hình AI trong việc tạo ra các phản hồi. Thay vì chỉ dựa vào thông tin đã được học trong quá trình đào tạo ban đầu (có thể bị lỗi thời hoặc thiếu chi tiết), kỹ thuật này kết hợp hai bước chính:

1. Truy xuất: Khi nhận được câu hỏi từ người dùng, mô hình AI trước tiên sẽ tìm kiếm và truy xuất thông tin liên quan từ kho kiến thức bên ngoài, chẳng hạn cơ sở dữ liệu, tập hợp tài liệu, trang web…

2. Tạo sinh: Mô hình AI sẽ sử dụng những thông tin vừa tìm thấy để tạo ra câu trả lời chính xác và có căn cứ hơn, thay vì chỉ dựa vào những gì đã học từ trước.

Dữ liệu không bị gửi đến các máy chủ của DeepSeek

Sử dụng R1 trên Azure AI Foundry đồng nghĩa với việc dữ liệu sẽ không bị gửi đến các máy chủ của DeepSeek tại Trung Quốc.

Trong phiên điều trần trước Thượng viện Mỹ gần đây, Brad Smith (Chủ tịch Microsoft) tiết lộ các nhân viên của công ty này không được phép sử dụng ứng dụng DeepSeek.

Ông khẳng định: “Tại Microsoft, chúng tôi không cho phép nhân viên sử dụng ứng dụng DeepSeek”. Theo Chủ tịch Microsoft, lý do là nguy cơ dữ liệu người dùng bị lưu trữ tại Trung Quốc và các phản hồi của DeepSeek có thể chịu ảnh hưởng bởi “tuyên truyền định hướng”. Đây là lần đầu tiên Microsoft công khai lệnh cấm này.

Hồi tháng 1, Asha Sharma (Phó chủ tịch điều hành của Microsoft phụ trách sản phẩm nền tảng AI) cho biết R1 đã trải qua "các bài kiểm tra nghiêm ngặt về an toàn và đánh giá bảo mật" trước khi được cung cấp cho khách hàng.

"R1 không có gì quá đặc biệt"

Cũng trong tháng 1, Sam Altman (Giám đốc điều hành OpenAI) gọi R1 là "một mô hình AI ấn tượng, đặc biệt là về những gì DeepSeek có thể cung cấp với mức giá này". Ông cho biết OpenAI sẽ "đưa ra một số bản phát hành" để đáp lại sự cạnh tranh mạnh mẽ từ DeepSeek.

Song vào tháng 3, Ben Buchanan (cựu cố vấn đặc biệt về AI trong chính quyền Biden) nhận xét: “Thực ra R1 cũng không có gì quá đặc biệt”.

Ben Buchanan cho rằng dù các kỹ sư của DeepSeek "vô cùng tài năng", ông không nghĩ "sự cường điệu trên truyền thông về công ty này là hợp lý".

“Bạn nghĩ họ cải thiện hiệu suất từ đâu? Chúng tôi đã đọc các bài nghiên cứu của họ. Họ là những người thông minh, đang thực hiện chính xác các công việc tối ưu hóa thuật toán giống các công ty như Google, Anthropic và OpenAI đang làm”, ông nói thêm.

Đồng quan điểm với Ben Buchanan, Jack Clark (nhà đồng sáng lập Anthropic và cựu giám đốc chính sách OpenAI) gọi sự cường điệu gần đây xung quanh DeepSeek “có lẽ được thổi phồng quá mức”, đồng thời nhận định công ty khởi nghiệp Trung Quốc này vẫn còn “tụt hậu 6 đến 8 tháng so với các hãng tiên phong của Mỹ”.

Tuy vậy, Jack Clark cũng dành lời khen cho DeepSeek: “Công nghệ của họ có những ý tưởng thuật toán thông minh. Nếu có quyền tiếp cận lượng tài nguyên điện toán lớn tùy ý, DeepSeek có thể trở thành đối thủ cạnh tranh đáng gờm hơn”.

Ông nói rằng nên theo dõi tiến bộ từ DeepSeek, nhưng theo các bài kiểm tra nội bộ tại Anthropic, các mô hình AI của công ty khởi nghiệp Trung Quốc này không gây ra rủi ro an ninh quốc gia.

Đứng sau các mô hình Claude, Anthropic là đối thủ cạnh tranh lớn với OpenAI, được cơ cấu như một công ty vì lợi ích cộng đồng với trọng tâm là an toàn AI. Công ty khởi nghiệp Mỹ này đã nhận được sự hậu thuẫn mạnh mẽ từ các hãng công nghệ lớn như Amazon và Google, cũng như nhiều quỹ đầu tư mạo hiểm hàng đầu. Hồi tháng 3, Anthropic đã huy động được 3,5 tỉ USD trong vòng gọi vốn do Lightspeed Venture Partners dẫn đầu, nâng định giá công ty lên 61,5 tỉ USD.

Lightspeed Venture Partners là hãng đầu tư mạo hiểm nổi tiếng có trụ sở tại Mỹ. Họ chuyên đầu tư vào các hãng công nghệ ở giai đoạn sớm và tăng trưởng, đặc biệt trong các lĩnh vực như AI, phần mềm, công nghệ tiêu dùng, công nghệ tài chính, y tế và công nghệ sinh học.

Jack Clark đưa ra nhận định như trên giữa lúc có nhiều suy đoán về thời điểm công ty đặt trụ sở tại thành phố Hàng Châu (Trung Quốc) sắp phát hành mô hình suy luận mới là R2.

Cuối tháng 4, DeepSeek âm thầm công bố mã nguồn mở Prover-V2 với 671 tỉ tham số, là bản nâng cấp cho mô hình chuyên biệt được thiết kế để xử lý các bằng chứng toán học. Tuy nhiên, công ty vẫn im lặng về tiến độ phát triển R2 được chờ đợi từ lâu.

Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.

Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.

Theo nguồn tin của Reuters, DeepSeek có thể ra mắt R2 trong tháng 5, nhưng công ty vẫn chưa công bố bất kỳ thông tin nào liên quan đến điều này.

Sơn Vân