DeepSeek không thể làm AI tương đương OpenAI với 5 triệu USD
Tuyên bố làm AI ngang ngửa OpenAI chỉ với 5 triệu USD của DeepSeek, startup Trung Quốc 'hot' nhất những ngày qua, gây hoài nghi.
DeepSeek xuất hiện dày đặc trên mặt báo và mạng xã hội đầu năm Ất Tỵ và khiến thị trường chứng khoán toàn cầu rung lắc dữ dội.
Tuy nhiên, một báo cáo gần đây của công ty tư vấn tài chính Bernstein cảnh báo, bất chấp thành tích ấn tượng, tuyên bố làm hệ thống AI sánh ngang của OpenAI với chi phí chỉ 5 triệu USD là không chính xác.
Theo Bernstein, tuyên bố của DeepSeek gây hiểu nhầm và không phản ánh bức tranh lớn hơn.
“Chúng tôi tin rằng DeepSeek không ‘tạo ra OpenAI với 5 triệu USD’; các mô hình rất tuyệt vời nhưng chúng tôi không nghĩ chúng là phép màu; và sự hoảng loạn cuối tuần qua dường như đã bị thổi phồng”, báo cáo viết.
DeepSeek phát triển hai mô hình AI chính: DeepSeek-V3 và DeepSeek R1. Mô hình ngôn ngữ lớn V3 tận dụng kiến trúc MOE, kết hợp các mô hình nhỏ hơn để đạt hiệu suất cao trong khi sử dụng ít tài nguyên điện toán hơn mô hình truyền thống.
Mặt khác, mô hình V3 có 671 tỷ tham số, với 37 tỷ tham số hoạt động bất kỳ lúc nào, tích hợp những đổi mới như MHLA để giảm sử dụng bộ nhớ và sử dụng FP8 để hiệu quả hơn.
Đào tạo mô hình V3 cần tới cụm 2.048 GPU Nvidia H800 trong thời gian 2 tháng, tương đương 5,5 triệu giờ GPU. Dù một số ước tính chi phí đào tạo xấp xỉ 5 triệu USD, báo cáo của Bernstein nhấn mạnh con số chỉ nhắc đến tài nguyên điện toán, chưa tính đến chi phí đáng kể liên quan đến nghiên cứu, thử nghiệm và chi phí phát triển khác.
Mô hình DeepSeek R1 dựa trên nền của V3 bằng cách sử dụng kỹ thuật Reinforcement Learning (RL) và các kỹ thuật khác để bảo đảm khả năng suy luận.
Mô hình R1 có thể cạnh tranh với các mô hình của OpenAI trong những tác vụ lý luận. Dù vậy, Bernstein chỉ ra việc phát triển R1 cần nguồn lực đáng kể, dù không được nêu chi tiết trong báo cáo của DeepSeek.
Bình luận về DeepSeek, Bernstein đánh giá các mô hình ấn tượng. Chẳng hạn, mô hình V3 hoạt động bằng hoặc tốt hơn các mô hình ngôn ngữ lớn khác trong ngôn ngữ, lập trình, toán học trong khi cần ít tài nguyên hơn.
Quá trình pre-training V3 chỉ cần 2,7 triệu giờ làm việc GPU, hay 9% nguồn lực tính toán của một số mô hình hàng đầu khác.
Bernstein kết luận, dù những tiến bộ của DeepSeek đáng chú ý, cần phải cảnh giác trước những tuyên bố phóng đại. Ý tưởng tạo ra một đối thủ cạnh tranh với OpenAI chỉ với 5 triệu USD dường như là sai lầm.
(Theo Times of India)