Hơn 10 chuyên gia ở các đại học hàng đầu Trung Quốc hiến kế phát triển AI sau khi nghiên cứu DeepSeek

Quỹ Khoa học Tự nhiên Quốc gia Trung Quốc (NSFC) cho biết sự phát triển trí tuệ nhân tạo (AI) không nên chỉ là 'cuộc cạnh tranh về sức mạnh tính toán'. Đây là kết luận được đưa ra sau khi tập hợp các chuyên gia để thảo luận về tác động từ các mô hình AI của DeepSeek.

NSFC chịu trách nhiệm phân bổ kinh phí cho nghiên cứu cơ bản.

Lu Jianhua, Phó giám đốc NSFC, nói DeepSeek "đại diện cho trình độ tiên tiến của sự phát triển AI hiện nay" và rằng nghiên cứu AI nên tập trung vào "cải thiện mức độ trí tuệ thay vì chỉ đơn thuần là cạnh tranh về sức mạnh tính toán", theo một tuyên bố trên trang web của NSFC hôm 3.3

DeepSeek, có trụ sở tại thành phố Hàng Châu, gây chấn động thế giới vào tháng 1 sau khi công bố các mô hình AI mã nguồn mở hiệu suất cao nhưng được xây dựng với chi phí chỉ bằng một phần nhỏ so với các đối thủ lớn hơn của Mỹ.

DeepSeek đã đạt được hiệu suất mô hình tốt thông qua tối ưu hóa hệ thống, làm dấy lên nghi ngờ về các quy luật mở rộng, nguyên tắc cho rằng dữ liệu huấn luyện lớn hơn và nhiều tham số hơn sẽ nâng cao trí tuệ của mô hình.

Tại Trung Quốc, các mô hình mã nguồn mở của DeepSeek đã kích hoạt làn sóng ứng dụng AI trong các doanh nghiệp, người tiêu dùng và tổ chức.

Theo Lu Jianhua, bài học rút ra từ thành công của DeepSeek là Trung Quốc nên "tập trung vào các đột phá công nghệ cốt lõi của các mô hình ngôn ngữ lớn, sự phối hợp giữa phần cứng và phần mềm, cũng như ứng dụng trong ngành để có thể xây dựng một hệ sinh thái tự chủ và có thể kiểm soát", một khẩu hiệu nhằm giảm sự phụ thuộc vào nguồn cung từ Mỹ.

Hơn 10 chuyên gia từ các trường đại học hàng đầu Trung Quốc, gồm cả Đại học Thanh Hoa và Đại học Chiết Giang – nơi Lương Văn Phong (nhà sáng lập DeepSeek) từng theo học, đã tham dự hội thảo được tổ chức tại Bắc Kinh gần đây.

Họ kêu gọi đổi mới phối hợp trong các thuật toán, kiến trúc và phần cứng, đồng thời thúc đẩy việc mở và chia sẻ các tài nguyên như dữ liệu, mã nguồn và mô hình, theo trang web của NSFC.

Chuyên gia từ các trường đại học hàng đầu Trung Quốc gần đây đã thảo luận về tác động từ các mô hình AI của DeepSeek - Ảnh: Internet

Chuyên gia từ các trường đại học hàng đầu Trung Quốc gần đây đã thảo luận về tác động từ các mô hình AI của DeepSeek - Ảnh: Internet

Cuối tuần qua, DeepSeek thông báo rằng dịch vụ suy luận trực tuyến của họ đã tạo ra tỷ suất lợi nhuận lý thuyết lên tới 545% mỗi ngày nhờ tối ưu hóa công nghệ tiên tiến.

Tỷ suất lợi nhuận ấn tượng này cho thấy những cải tiến hiệu suất đằng sau các tiến bộ kỹ thuật của DeepSeek. Công ty cho biết tập trung vào thiết kế hệ thống xoay quanh "hiệu suất cao hơn và độ trễ thấp hơn", đồng thời tiết lộ chi tiết về giải pháp Expert Parallelism đa nút quy mô lớn của họ, theo các bài đăng trên GitHub và nền tảng hỏi & đáp của Trung Quốc hôm 1.3.

Expert Parallelism là một kỹ thuật tối ưu hóa trong huấn luyện và suy luận của mô hình AI, đặc biệt trong các mô hình lớn như DeepSeek, GPT, Grok-3…

Thay vì để toàn bộ mô hình xử lý mọi dữ liệu đầu vào, Expert Parallelism chia mô hình thành nhiều nhóm chuyên gia. Khi có dữ liệu đầu vào, hệ thống chỉ kích hoạt một số chuyên gia phù hợp nhất, thay vì tất cả. Điều này giúp:

- Tiết kiệm tài nguyên: Giảm số lượng tham số cần tính toán.

- Tăng hiệu suất: Giảm độ trễ và tăng tốc độ suy luận.

- Mở rộng quy mô tốt hơn: Giúp mô hình AI xử lý các tác vụ phức tạp mà không cần tăng quá nhiều chi phí tính toán.

Cách hoạt động

Mô hình được chia thành nhiều nhóm chuyên gia.

Một bộ định tuyến quyết định chuyên gia nào sẽ xử lý một phần của dữ liệu đầu vào.

Chỉ một số chuyên gia được kích hoạt mỗi lần thay vì toàn bộ mô hình.

Tổng hợp kết quả từ các chuyên gia để tạo ra đầu ra cuối cùng.

Liên hệ với DeepSeek

DeepSeek sử dụng Expert Parallelism kết hợp với các kỹ thuật tối ưu hóa khác để tăng tốc suy luận và giảm chi phí vận hành so với các đối thủ lớn như OpenAI và Google DeepMind.

Tuần trước, Jensen Huang (Giám đốc điều hành Nvidia) bày tỏ sự tin tưởng vào nhu cầu mạnh mẽ tiếp tục với các bộ xử lý đồ họa (GPU) của công ty sau khi DeepSeek ngày càng trở nên phổ biến.

Jensen Huang cho biết sự xuất hiện của các mô hình suy luận đã dẫn đến một quy luật mở rộng mới, đòi hỏi việc triển khai nhiều tài nguyên tính toán hơn. "OpenAI, Grok3, DeepSeek-R1 là những mô hình suy luận áp dụng quy mô suy luận theo thời gian", ông nói.

Nhu cầu với Blackwell, dòng GPU mới nhất của Nvidia được thiết kế để triển khai AI quy mô lớn, vẫn ở mức cao, theo Jensen Huang. "Các trung tâm dữ liệu sẽ dành phần lớn chi phí đầu tư vào điện toán tăng tốc và AI", tỷ phú người Mỹ gốc Đài Loan cho hay.

Hôm 1.3, DeepSeek đã công bố một số dữ liệu về chi phí và doanh thu liên quan đến mô hình trí tuệ nhân tạo nguồn mở V3 và R1 nổi tiếng của họ, khẳng định tỷ lệ chi phí - lợi nhuận lý thuyết có thể lên tới 545% mỗi ngày. Tuy nhiên, công ty khởi nghiệp Trung Quốc này lưu ý rằng doanh thu thực tế sẽ thấp hơn đáng kể.

Đây là lần đầu tiên DeepSeek tiết lộ thông tin về biên lợi nhuận từ các tác vụ suy luận ít tốn tài nguyên tính toán hơn. Suy luận là giai đoạn mô hình AI (sau khi được trải qua quá trình đào tạo) thực hiện dự đoán hoặc nhiệm vụ, chẳng hạn qua chatbot.

Thông tin này có thể khiến các cổ phiếu AI bên ngoài Trung Quốc tiếp tục chao đảo, sau đợt lao dốc cuối tháng 1 khi mô hình R1 và V3 của DeepSeek bất ngờ gây sốt toàn cầu. Đợt bán tháo cổ phiếu xuất phát từ tuyên bố của DeepSeek rằng chi phí đào tạo V3 chưa đến 6 triệu USD, thấp hơn nhiều so với các công ty Mỹ như OpenAI, Google, Anthropic.

Nvidia H800, loại chip mà DeepSeek sử dụng để đào tạo V3, cũng kém mạnh mẽ hơn nhiều so với những gì OpenAI và các công ty Mỹ khác có, khiến giới đầu tư càng nghi ngờ về cam kết chi hàng tỉ USD cho chip Nvidia tiên tiến.

Trong bài đăng trên nền tảng mã nguồn mở GitHub hôm 1.3, DeepSeek cho biết: “Nếu giả định chi phí thuê một chip H800 là 2 USD/giờ, tổng chi phí suy luận hằng ngày cho mô hình V3 và R1 là 87.072 USD. Trong khi đó, doanh thu lý thuyết từ hai mô hình này là 562.027 USD/ngày, dẫn đến tỷ lệ chi phí-lợi nhuận 545%. Tính theo năm, doanh thu sẽ đạt hơn 200 triệu USD”.

Tuy nhiên, DeepSeek nhấn mạnh doanh thu thực tế thấp hơn nhiều do phí sử dụng mô hình V3 thấp hơn R1, chỉ một số dịch vụ kiếm được tiền trong khi truy cập web và ứng dụng vẫn miễn phí. Hơn nữa, nhà phát triển trả ít hơn vào giờ thấp điểm.

Hôm 26.2, DeepSeek đã giới thiệu mức giá giảm sâu cho các nhà phát triển muốn sử dụng mô hình AI của hãng để xây dựng sản phẩm riêng. Động thái này có thể gây áp lực lên các đối thủ ở Trung Quốc và quốc tế trong việc cắt giảm giá.

DeepSeek cho biết trong khung giờ từ 16:30 GMT đến 00:30 GMT, chi phí sử dụng API (nền tảng cho phép các nhà phát triển tích hợp mô hình AI của DeepSeek vào ứng dụng và sản phẩm web) sẽ giảm tới 75%, đồng thời mở lại nạp tiền cho dịch vụ này sau hơn 2 tuần tạm dừng do quá tải nhu cầu.

Theo bảng giá trên trang web của DeepSeek, chi phí sử dụng API củamô hình R1 và V3 trong khung giờ này sẽ giảm lần lượt 75% và 50%.

Dù DeepSeek gọi khung giờ này là "ngoài giờ cao điểm" vì kéo dài từ 0 giờ 30 đến 8 giờ 30 theo giờ Bắc Kinh, nhưng thực tế lại rơi vào ban ngày tại châu Âu và Mỹ.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/hon-10-chuyen-gia-o-cac-dai-hoc-hang-dau-trung-quoc-hien-ke-phat-trien-ai-sau-khi-nghien-cuu-deepseek-229974.html