CEO Baidu nêu những điểm hạn chế của DeepSeek-R1 khi ra mắt hai mô hình AI đa phương thức mới

7 giờ trước Gốc

Ông Lý Ngạn Hoành, nhà sáng lập kiêm Giám đốc điều hành Baidu, cho biết nhu cầu với các mô hình trí tuệ nhân tạo (AI) dựa trên văn bản như của DeepSeek đang 'bị thu hẹp' trong bối cảnh tập đoàn tìm kiếm này nỗ lực tái khẳng định vị thế dẫn đầu về AI tại Trung Quốc.

Doanh nhân 56 tuổi này phát biểu tại hội nghị dành cho các nhà phát triển của Baidu rằng R1, mô hình AI hàng đầu do DeepSeek phát triển, đang có những hạn chế. Dù được cộng đồng lập trình viên quốc tế khen ngợi nhưng mô hình suy luận R1 chủ yếu thực hiện các nhiệm vụ dựa trên văn bản.

“Thị trường cho các mô hình văn bản đang bị thu hẹp”, Lý Ngạn Hoành nói khi Baidu ra mắt hai mô hình đa phương thức mới Ernie 4.5 Turbo và X1 Turbo, có khả năng xử lý không chỉ văn bản mà còn cả hình ảnh, âm thanh và video.

Ông cho biết thêm rằng mô hình AI của DeepSeek có xu hướng “ảo giác” dễ gây hiểu nhầm hơn, đồng thời chậm hơn và đắt đỏ hơn so với các mô hình trong nước khác.

“Ảo giác” có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được. Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể "đoán đại" theo cách có vẻ hợp lý.

DeepSeek chưa phản hồi khi được đề nghị bình luận về phát biểu của Lý Ngạn Hoành.

CEO Baidu nói rằng bối cảnh cạnh tranh giữa các mô hình AI mới liên tục thay đổi, với hàng loạt sản phẩm mạnh mẽ “mở rộng lựa chọn” cho người dùng.

Những nhận xét này được đưa ra trong bối cảnh Baidu đang cố gắng tái định vị mình như một công ty dẫn đầu trong lĩnh vực AI, sau khi buộc phải chuyển hướng bằng cách ngừng dịch vụ đăng ký dùng chatbot trả phí và cung cấp miễn phí các mô hình của mình dưới dạng nguồn mở.

Khi đối mặt với sự cạnh tranh khốc liệt trong nước từ các đối thủ, gồm cả Alibababa, Baidu đã phát hành các mô hình đa phương thức mã nguồn mở có tính cạnh tranh cao.

Baidu đã giới thiệu một số trường hợp sử dụng cho các mô hình đa phương thức của mình, gồm cả một bản cập nhật nền tảng avatar AI, giúp các nhà bán hàng tạo hình đại diện giống người thật để tổ chức livestream và quảng bá sản phẩm.

Cổ phiếu Baidu tại Hồng Kông đã tăng hơn 4% sau thông tin này.

Lý Ngạn Hoành giới thiệu hai mô hình AI đa phương thức mới tại hội nghị dành cho nhà phát triển của Baidu ở thành phố Vũ Hán - Ảnh: Bloomberg

Điều đáng chú ý là Baidu vẫn tiếp tục sử dụng mô hình AI của DeepSeek kể từ khi công ty khởi nghiệp này vươn lên vị trí dẫn đầu lĩnh vực mô hình ngôn ngữ lớn Trung Quốc sau khi ra mắt R1 vào tháng 1.

Những tháng gần đây, Baidu đã tích hợp mô hình AI DeepSeek vào nền tảng doanh nghiệp Qianfan cũng như ứng dụng bản đồ và tìm kiếm của mình.

Charlie Dai, Phó chủ tịch hãng nghiên cứu thị trường Forrester Research, cho biết các thông báo mới của Baidu sẽ “thúc đẩy việc ứng dụng AI trong các ngành công nghiệp tại Trung Quốc, giảm rào cản cho các nhà phát triển và tiếp tục làm gia tăng cạnh tranh với nhà cung cấp lớn khác như Alibaba Cloud, Huawei Cloud, Tencent Cloud”.

DeepSeek đang tập trung phát triển mô hình AI mới, với các kỹ sư làm việc hết công suất để chuẩn bị ra mắt phiên bản R2 và V4, trang Financial Times đưa tin hồi tháng 3.

Sau khi ChatGPT trình làng vào tháng 11.2022, Baidu là công ty Trung Quốc đầu tiên tung ra sản phẩm để cạnh tranh với chatbot đình đám của OpenAI. Tháng 3.2023, Baidu đã trình làng chabot Erniebot, sau đó phiên bản di động được đổi tên thành Wenxinyan.

Chatbot của Baidu ban đầu đạt được thành công nhất định tại Trung Quốc, nhưng sau đó bị Doubao của ByteDance và chatbot DeepSeek đã vượt qua về mức độ phổ biến. Năm nay, Baidu đã ngừng dịch vụ đăng ký dùng chatbot trả phí do sự đón nhận không cao trước sự phong phú của các sản phẩm miễn phí từ đối thủ.

Từng kiên quyết bảo vệ chiến lược mô hình đóng, Baidu đã bắt đầu mã nguồn mở các mô hình AI của mình, cho phép nhà phát triển linh hoạt hơn trong việc xây dựng ứng dụng.

Hôm 25.4, Baidu phát hành tác tử AI mới có tên Xinxiang, tham gia vào thị trường ngày càng đông các đối thủ, chẳng hạn Quark của gã khổng lồ công nghệ Alibaba và sản phẩm từ công ty khởi nghiệp Manus AI.

Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.

Ngoài ra, Baidu thông báo đã xây dựng được cụm máy tính gồm 30.000 chip AI P800 từ công ty thiết kế bán dẫn Kunlun của mình, mà theo họ có thể hỗ trợ việc huấn luyện nhiều mô hình tương tự DeepSeek. Lý Ngạn Hoành khẳng định các nhà phát triển không cần lo lắng về tình trạng thiếu hụt năng lực điện toán.

Financial Times tháng trước đưa tin Samsung đã bán cho Kunlun lượng chip logic (thành phần quan trọng trong việc phát triển các sản phẩm AI) đủ dùng trong ba năm. Tuy nhiên, khả năng tiếp tục hợp tác của Samsung với Kunlun có thể bị hạn chế bởi các lệnh kiểm soát xuất khẩu mới từ Mỹ.

DeepSeek lần đầu thông báo tuyển dụng vị trí liên quan đến sản phẩm khi chuẩn bị ra mắt mô hình AI mới

DeepSeek khởi động chiến dịch tuyển dụng khẩn cấp các vị trí liên quan đến “sản phẩm và thiết kế” tại thủ đô Bắc Kinh và thành phố Hàng Châu, làm dấy lên đồn đoán về mô hình AI mới mà công ty vẫn giữ kín thông tin.

Thông báo tuyển dụng cho biết ứng viên sẽ tham gia xây dựng “trải nghiệm sản phẩm thông minh thế hệ tiếp theo” dựa trên mô hình ngôn ngữ lớn, theo tài khoản WeChat chính thức của DeepSeek. Mô hình ngôn ngữ lớn là công nghệ nền tảng cho các dịch vụ AI tạo sinh như ChatGPT và ứng dụng chatbot cùng tên của DeepSeek.

DeepSeek được sáng lập bởi doanh nhân công nghệ Lương Văn Phong vào năm 2023. Đây là lần đầu tiên DeepSeek thông báo tuyển dụng các vị trí như quản lý và thiết kế sản phẩm, thiết kế trực quan. Trước đó, công ty có trụ sở tại Hàng Châu chủ yếu tập trung vào nghiên cứu mô hình AI nền tảng.

Chiến dịch tuyển dụng này cho thấy DeepSeek đang chuyển mình thành một tổ chức doanh nghiệp thực thụ (tức là công ty hoạt động chuyên nghiệp, có cấu trúc rõ ràng, vận hành bài bản như các doanh nghiệp lớn).

DeepSeek cũng đang trong quá trình tuyển dụng giám đốc tài chính (CFO), giám đốc vận hành (COO) cùng bốn vị trí khác ở lĩnh vực nghiên cứu và kỹ thuật, theo trang web tuyển dụng của họ.

Dù nhận được sự quan tâm lớn từ công chúng và giới đầu tư, DeepSeek vẫn khá kín tiếng, chỉ đưa ra một số cập nhật sản phẩm và công bố vài bài nghiên cứu. Bản nâng cấp mô hình ngôn ngữ lớn gần nhất của DeepSeek là vào ngày 25.3, khi công ty tung ra phiên bản cải tiến cho mô hình mã nguồn mở V3.

Mô hình mới DeepSeek-V3-0324 được phát hành trên nền tảng phát triển Hugging Face, đánh dấu bước tiến mới nhất của công ty này trong nỗ lực khẳng định vị thế trên thị trường AI đang phát triển nhanh chóng.

DeepSeek-V3-0324 mang lại những cải thiện đáng kể về khả năng lập luận và lập trình so với các mô hình trước đó. Các bài kiểm tra tiêu chuẩn cho thấy hiệu suất của nó được cải thiện trên nhiều chỉ số kỹ thuật được công bố trên Hugging Face.

Theo nguồn tin của Reuters, DeepSeek có thể ra mắt mô hình suy luận mới R2 đầu tháng 5 tới, nhưng công ty vẫn chưa công bố bất kỳ thông tin nào liên quan đến tiến độ phát hành này.

DeepSeek đã thu hút sự chú ý toàn cầu từ cuối tháng 12.2024 đến tháng 1.2025 khi lần lượt tung ra hai mô hình AI mã nguồn mở tiên tiến là V3 và R1, được phát triển với chi phí chỉ bằng một phần nhỏ so với dự án mô hình ngôn ngữ lớn của các gã khổng lồ công nghệ. Những thông báo này đã gây chấn động cả Phố Wall lẫn Thung lũng Silicon.

Trong một bài viết, DeepSeek tiết lộ đào tạo V3 chỉ bằng 2.048 GPU (bộ xử lý đồ họa) Nvidia H800 khoảng hai tháng. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.

DeepSeek tuyên bố quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.

Sơn Vân

Nguồn Một Thế Giới: https://1thegioi.vn/ceo-baidu-neu-nhung-diem-han-che-cua-deepseek-r1-khi-ra-mat-hai-mo-hinh-ai-da-phuong-thuc-moi-231973.html