Alibaba: Mô hình AI mới Qwen2 vượt trội Llama 3 của Meta trong một số nhiệm vụ

07/6/2024 Gốc

Alibaba, gã khổng lồ thương mại điện tử Trung Quốc đang đầu tư mạnh vào trí tuệ nhân tạo (AI), đã cập nhật các mô hình ngôn ngữ lớn nguồn mở của mình với tuyên bố Qwen2-72B vượt trội Llama 3 trong một số nhiệm vụ nhất định.

Mô hình ngôn ngữ lớn là công nghệ làm nền tảng cho các chatbot AI.

Hôm 7.6, Alibaba Cloud (đơn vị điện toán đám mây của Alibaba) đã ra mắt Qwen2, phiên bản thứ hai của dòng mô hình ngôn ngữ lớn nguồn mở Tongyi Qianwen với hàng loạt bản cập nhật, gồm cả đào tạo trước đa ngôn ngữ và cửa sổ ngữ cảnh mở rộng. Điều đó đồng nghĩa Qwen2 cho phép thực hiện các truy vấn và câu trả lời dài hơn nhiều, đưa nó vào danh sách các mô hình ngôn ngữ lớn nguồn mở mạnh mẽ nhất thế giới.

Cửa sổ ngữ cảnh mở rộng là một kỹ thuật trong xử lý ngôn ngữ tự nhiên nhằm tăng hiệu quả của các mô hình ngôn ngữ lớn bằng cách cung cấp cho chúng nhiều thông tin ngữ cảnh hơn khi xử lý một từ hoặc cụm từ. Cụ thể, thay vì chỉ xem xét vài từ trước và sau cụm từ đang được xử lý, cửa sổ ngữ cảnh mở rộng sẽ đánh giá một đoạn văn bản dài hơn xung quanh nó. Điều này có thể giúp mô hình ngôn ngữ lớn hiểu rõ hơn về ý nghĩa của từ hoặc cụm từ trong bối cảnh cụ thể, từ đó đưa ra dự đoán chính xác hơn về từ tiếp theo hoặc hành động cần thực hiện.

Qwen2 có năm biến thể. Theo Alibaba, mô hình Qwen2-72B cao cấp liên tục cho kết quả tốt hơn so với Llama 3-70B (mô hình AI nguồn mở mạnh nhất của Meta Platforms) trong nhiều bài kiểm tra điểm chuẩn khác nhau. Các bài kiểm tra gồm toán học, mã hóa, khoa học tự nhiên và xã hội, kỹ thuật và nhân văn, Alibaba cho biết trong một bài đăng được đăng trên trang GitHub chính thức của Qwen2-72B.

GitHub là dịch vụ lưu trữ mã nguồn trên nền web cho các dự án phát triển phần mềm. Nó cung cấp cả phiên bản trả tiền lẫn miễn phí cho các tài khoản. Các dự án mã nguồn mở sẽ được cung cấp kho lưu trữ miễn phí.

Alibaba ra mắt Qwen2 chỉ một tháng sau khi trình làng Tongyi Qianwen 2.5 (mô hình ngôn ngữ lớn nguồn đóng). Vào thời điểm đó, gã khổng lồ thương mại điện tử cho biết Tongyi Qianwen 2.5 hoạt động tốt hơn ở nhiều tình huống tiếng Trung khác nhau so với GPT-4, mô hình ngôn ngữ lớn mạnh mẽ của OpenAI và cũng là nguồn đóng.

Năm biến thể của Qwen2, từ Qwen2-0.5B nhanh nhẹn hơn đến Qwen2-72B tinh vi nhất, có từ 490 triệu đến 72,7 tỉ tham số. Chúng cũng được đào tạo trên 27 ngôn ngữ ngoài tiếng Trung và tiếng Anh, gồm 9 ngôn ngữ từ châu Âu, 4 ngôn ngữ từ Trung Đông và 14 ngôn ngữ từ châu Á.

Alibaba tuyên bố Qwen2-72B vượt trội hơn Llama 3 của Meta Platforms trong một số nhiệm vụ nhất định - Ảnh: Internet

Sự ra mắt nhanh chóng mô hình ngôn ngữ lớn mới, có thể so sánh với các sản phẩm hàng đầu trên thế giới, phản ánh sự tự tin của Alibaba khi đổ lượng tài nguyên ngày càng nhiều vào cuộc đua AI đang bao trùm phần lớn ngành công nghệ.

Nhiều công ty Trung Quốc từ lớn đến nhỏ đều đang nỗ lực phát triển mô hình ngôn ngữ lớn của riêng mình. Gần đây, các gã khổng lồ công nghệ Trung Quốc đã châm ngòi cho một cuộc chiến giảm giá mô hình ngôn ngữ lớn trong nước.

Cuối tháng 5, gã khổng lồ game và truyền thông xã hội Tencent Holdings đã công bố chatbot AI chuyên dụng có tên Yuanbao, được hỗ trợ bởi mô hình ngôn ngữ lớn Hunyuan mới nhất của công ty. Tencent cho biết Hunyuan đã trải qua hàng loạt cải tiến kể từ khi ra mắt vào tháng 9.2023.

Hunyuan đã được đưa vào hơn 600 kịch bản kinh doanh trong các tổ chức của Tencent, nhằm mục đích sử dụng AI để giúp nâng cao hiệu quả. Alibaba cũng tìm cách tận dụng AI để giúp chuyển đổi các hoạt động kinh doanh.

Alibaba.com, nền tảng thương mại điện tử xuyên biên giới giữa doanh nghiệp và doanh nghiệp của Alibaba, gần đây đã giới thiệu các công cụ hỗ trợ AI của riêng mình để giúp kết nối người bán và người mua nhằm tăng doanh số bán hàng. Zhang Kuo, Chủ tịch nền tảng Alibaba.com, nói điều này với trang SCMP trong cuộc phỏng vấn gần đây.

Trong 18 tháng kể từ khi OpenAI ra mắt ChatGPT, các hãng công nghệ lớn và nhỏ của Trung Quốc đã tập trung vào mục tiêu đánh bại công ty khởi nghiệp Mỹ được Microsoft hậu thuẫn bằng các chatbot riêng.

Các kết quả còn trái ngược nhau, với một số gã khổng lồ công nghệ tuyên bố đạt kết quả tốt hơn GPT-4, mô hình ngôn ngữ lớn tiên tiến của OpenAI, với những truy vấn tiếng Trung. Có hơn 200 mô hình ngôn ngữ lớn từ nhiều công ty Trung Quốc đang tranh giành thị phần. Dù khó vượt qua OpenAI, các công ty AI của Trung Quốc có thể tự hào thông báo sở hữu ít nhất một lợi thế rõ ràng so với đối thủ ở Mỹ là giá cả của mô hình ngôn ngữ lớn.

Những tuần gần đây, ByteDance (chủ sở hữu TikTok), Baidu (công ty tìm kiếm số 1 Trung Quốc), Alibaba và Tencent Holdings đều đã giảm giá mạnh việc đăng ký sử dụng mô hình ngôn ngữ lớn của họ.

Dịch vụ cao cấp từ mô hình ngôn ngữ lớn Doubao Pro của ByteDance có giá chỉ 0,0008 nhân dân tệ cho 1.000 token, giảm 99,8% so với mức phí OpenAI tính cho quyền truy cập GPT-4. Token là đơn vị dữ liệu được mô hình ngôn ngữ lớn xử lý. Với mô hình ngôn ngữ lớn tiếng Trung, 1 token thường tương đương với từ 1 đến 1,8 ký tự tiếng Trung.

Với mức giá này, 1 nhân dân tệ có thể mua được 1,25 triệu token đầu vào. Để so sánh, sẽ tốn khoảng 37,50 USD (tương đương 272 nhân dân tệ) để mua 1,25 triệu mã token đầu vào của GPT-4.

Ở Mỹ, những gã khổng lồ công nghệ như Alphabet (công ty mẹ Google), Meta Platforms (chủ sở hữu Facebook), Amazon và Microsoft cũng đang cạnh tranh trong lĩnh vực AI bằng cách đi theo chiến lược “tăng quy mô chớp nhoáng” đã trở nên phổ biến ở Thung lũng Silicon. Cụ thể là thu hút người dùng càng nhanh càng tốt, bấp chấp doanh thu, để chiếm lĩnh thị trường.

Ngay cả khi đang tận hưởng “khu vườn có tường bao quanh” đằng sau Great Fireawall (tường lửa vĩ đại kiểm duyệt các dịch vụ internet nước ngoài), các công ty Trung Quốc vẫn phải đối mặt với thách thức lớn do Mỹ hạn chế xuất khẩu chip tiên tiến của Nvidia. Họ cũng có sức chi tiêu doanh nghiệp ít hơn so với các công ty cùng ngành tại thị trường Mỹ với nguồn tiền dồi dào.

Cung cấp bộ xử lý đồ họa (GPU) mạnh mẽ cho máy chủ, Nvidia đóng vai trò quan trọng trong việc các hãng lớn phát triển các mô hình AI.

“Việc giảm giá với các dịch vụ AI của Trung Quốc chủ yếu nhằm mục đích thu hút nhiều khách hàng hơn và giống như một hoạt động xây dựng thương hiệu hơn”, Xu Li, Giám đốc điều hành và đồng sáng lập SenseTime (công ty AI niêm yết tại Hồng Kông), nói với trang SCMP.

ByteDance đã mở đầu cuộc chiến giá cả mô hình ngôn ngữ lớn vào giữa tháng 5 khi công bố mức giá cho các dịch vụ AI Doubao của mình giảm mạnh so với các đối thủ trong nước.

Các hãng công nghệ lớn khác của Trung Quốc đã nhanh chóng phản ứng.

Alibaba Cloud đã công bố giảm giá đến 97% cho hàng loạt mô hình ngôn ngữ lớn Tongyi Qwen. Ví dụ, Alibaba giảm giá mô hình Qwen-Long từ 0,02 nhân dân tệ trên 1.000 token xuống 0,0005 nhân dân tệ, tức rẻ hơn 0,0003 nhân dân tệ so với ByteDance.

Baidu nhanh chóng chạy theo Alibaba Cloud khi thông báo rằng mô hình ngôn ngữ lớn Ernie Speed và Ernie Lite sẽ được miễn phí cho tất cả người dùng doanh nghiệp.

Các công ty như Tencent và iFlytek (chuyên gia AI nổi tiếng với công nghệ nhận dạng âm thanh) cũng giảm giá mạnh mô hình ngôn ngữ lớn của họ.

Giá dịch vụ các mô hình ngôn ngữ lớn từ 4 hãng công nghệ lớn Trung Quốc so với GPT-4 và GPT-4o của OpenAI tính theo đơn vị token, trong đó input là đầu vào và output là đầu ra - Ảnh: SCMP

Wang Sheng, nhà đầu tư của hãng InnoAngel Fund có trụ sở tại Bắc Kinh (thủ đô Bắc Kinh), cho biết kiểu cạnh tranh giá “ác liệt” này đang gây tổn hại cho các công ty khởi nghiệp AI địa phương.

Wang Sheng nói: “Khi nói đến việc phát triển mô hình ngôn ngữ lớn, các hãng công nghệ lớn không hẳn giỏi hơn các công ty khởi nghiệp. Tuy nhiên, chiến lược giảm giá của họ để giành thị phần sẽ gây bất lợi cho các công ty khởi nghiệp”.

Alain Le Couedic, đối tác cấp cao tại công ty đầu tư AI Artificial Intelligence Quartermaster (AIQ), cho rằng cuộc cạnh tranh về giá sẽ mang lại kết quả theo thời gian.

Ông nói: “Cuộc đua giành quyền thống trị thị trường là dấu hiệu cho thấy nhiều công ty nhìn thấy các cơ hội hấp dẫn trong tương lai, ngay cả khi điều đó gây ra một số khó khăn trong ngắn hạn đến trung hạn”.

Mô hình ngôn ngữ lớn tiêu tốn nhiều năng lượng, khiến chúng tốn kém khi vận hành, do đó chi phí biên để thêm người dùng mới có thể cao hơn so với các dịch vụ trực tuyến khác. Điều này làm cho việc mở rộng quy mô nhanh chóng trở nên phức tạp hơn với các dịch vụ AI. Tuy nhiên, một cuộc đua để làm cho mô hình ngôn ngữ lớn hiệu quả hơn cuối cùng có thể thay đổi điều này.

Chi phí biên (marginal cost) là chi phí phát sinh thêm khi sản xuất thêm một đơn vị sản phẩm hoặc dịch vụ. Cụ thể, nó là sự thay đổi trong tổng chi phí khi tăng sản lượng thêm một đơn vị. Ví dụ, nếu nhà sản xuất cần chi thêm 10.000 đồng để sản xuất thêm một sản phẩm nữa thì chi phí biên của sản phẩm đó là 10.000 đồng. Chi phí biên thường gồm các chi phí biến đổi, như nguyên liệu và lao động trực tiếp, nhưng không bao gồm cả các chi phí cố định như tiền thuê nhà hoặc lương quản lý.

Bill MacCartney, Giám đốc công nghệ của công ty đầu tư mạo hiểm SignalFire và là giáo sư khoa học máy tính tại Đại học Stanford (Mỹ), chia sẻ với SCMP tại Hội nghị Đầu tư châu Á UBS tuần trước: “Việc vận hành những mô hình ngôn ngữ lớn này tốn rất nhiều tiền và mọi hãng có động lực kinh tế mạnh mẽ để tìm cách làm cho nó rẻ hơn”.

Một số công ty cho biết hiệu quả được cải thiện trong đào tạo và vận hành các mô hình ngôn ngữ lớn là lý do chính để họ giảm giá. OpenAI ghi nhận những hiệu quả như vậy là lý do đằng sau mức giá thấp hơn nhiều của mô hình ngôn ngữ lớn GPT-4o ra mắt hôm 14.5.

Robin Li Yanhong, người sáng lập và Giám đốc điều hành Baidu, nói vào tháng 4 rằng hiệu quả đào tạo Ernie, mô hình ngôn ngữ lớn hàng đầu của hãng, đã cải thiện 5,1 lần trong vòng một năm. Hiệu suất suy luận của Ernie tăng 105 lần, giảm 99% chi phí suy luận.

ByteDance cho biết giảm giá mô hình ngôn ngữ lớn vì tự tin có thể giảm chi phí thông qua cải tiến kỹ thuật.

Sơn Vân