Đua với Meta, Google tung ra các mô hình Gemma giúp nhà phát triển xây dựng phần mềm AI riêng
Hôm 21.2, Google đã phát hành các mô hình trí tuệ nhân tạo (AI) mới mà các nhà phát triển bên ngoài có thể sử dụng để xây dựng phần mềm AI riêng, theo sau một động thái tương tự từ Meta Platforms và các công ty khác.
Google, công ty con của Alphabet, cho biết các cá nhân và doanh nghiệp có thể xây dựng phần mềm AI dựa trên dòng "mô hình mở" mới mang tên Gemma, hoàn toàn miễn phí. Công ty cho biết đang công khai các dữ liệu kỹ thuật chính, chẳng hạn như trọng số mô hình.
Động thái này có thể thu hút các kỹ sư phần mềm xây dựng trên công nghệ của Google và khuyến khích việc sử dụng dịch vụ đám mây có lợi nhuận của hãng. Công ty cho biết các mô hình Gemma được tối ưu hóa cho Google Cloud, nơi khách hàng mới sử dụng dịch vụ đám mây sẽ nhận được khoản tín dụng trị giá 300 USD.
Google không đưa ra quyết định biến Gemma thành "nguồn mở" hoàn toàn, nghĩa là công ty vẫn có thể can thiệp vào việc đặt ra các điều khoản sử dụng và quyền sở hữu. Một số chuyên gia cho rằng AI nguồn mở dễ bị lạm dụng, trong khi những người khác lại ủng hộ phương pháp này để mở rộng nhóm người có thể đóng góp và hưởng lợi từ công nghệ.
Với thông báo này, Google không mở mã các mô hình ngôn ngữ lớn hơn và nổi bật hơn của mình là Gemini, khác với Gemma. Công ty cho biết các mô hình Gemma có kích thước từ 2 tỉ đến 7 tỉ tham số (số lượng giá trị khác nhau mà một thuật toán tính đến để tạo đầu ra).
Các mô hình Llama 2 của Meta Platforms có kích thước từ 7 đến 70 tỉ tham số. Google chưa tiết lộ kích thước của các mô hình Gemini của mình. Để so sánh, mô hình ngôn ngữ lớn GPT-3 của OpenAI được công bố vào năm 2020 có 175 tỉ tham số.
Nvidia (hãng sản xuất chip có giá trị nhất thế giới) hôm 21.2 cho biết đã hợp tác với Google để đảm bảo các mô hình Gemma chạy trơn tru trên chip AI của họ. Nvidia cũng thông báo sẽ sớm cho phép phần mềm chatbot, đang được phát triển để chạy các mô hình AI trên máy tính cá nhân cài Windows, hoạt động với Gemma.
Đầu tháng 2, Google công bố sẽ đổi tên các sản phẩm AI mới nhất và hào nhoáng nhất của mình theo mô hình ngôn ngữ lớn Gemini cung cấp sức mạnh cho chúng. Bard, chatbot AI mà Google ra mắt gần một năm trước, hiện được đặt tên là Gemini.
Duet AI, công cụ AI cộng tác của Google cho bộ phần mềm Workspace, trở thành Gemini for Workspace.
Sissie Hsiao giải thích với Insider: “Đây là một dạng dọn dẹp và đón nhận Gemini như thương hiệu AI của chúng tôi. Thành thật mà nói, việc có quá nhiều cái tên thực sự rất phức tạp với mọi người. Kiểu như có một mô hình Gemini, nhưng sản phẩm lại là Bard. Tôi nghĩ cuối cùng, đây có lẽ là cách mà hầu hết mọi người sẽ trải nghiệm mô hình Gemini. Vì vậy, chúng tôi muốn thực sự nhấn mạnh: Mô hình chính là sản phẩm ở đây".
Đầu tháng 12.2023, Google đã phát hành mô hình ngôn ngữ lớn Gemini. Có ba phiên bản khác nhau về kích thước, khả năng gồm Ultra, Pro và Nano. Gemini là hệ thống trí AI đa phương thức, không chỉ xử lý văn bản mà còn cả mã, âm thanh, hình ảnh và video để phản hồi truy vấn từ người dùng.
Gemini cũng tích hợp trực tiếp vào các thiết bị di động. Google tự hào rằng Gemini cũng là mô hình AI "linh hoạt nhất" của họ, có khả năng chạy trên nhiều nguồn từ trung tâm dữ liệu đến smartphone.
Phiên bản Gemini Pro đã hỗ trợ chatbot Bard kể từ đó, nhưng Google từng tạm hoãn phát hành mô hình Gemini Ultra mạnh mẽ nhất đến tháng 2.2024.
Bắt đầu từ ngày 7.2.2024, người dùng có thể truy cập Gemini Ultra thông qua Bard (hiện được gọi là Gemini) nhưng phải trả 20 USD một tháng cho gói AI Google One, để có quyền truy cập vào cả Gemini for Workspace.
Sissie Hsiao nói: "Tôi rất vui mừng với chất lượng của Gemini Ultra. Tôi nghĩ mọi người sẽ kinh ngạc vì độ phức tạp và thông minh của mô hình này. Gemini Ultra đặc biệt vượt trội ở cách tạo văn xuôi khi viết, tạo nội dung, có thể nhập vai các nhân vật khác nhau. Nó trông rất mạnh mẽ”.
Nhìn chung, việc Google đổi thương hiệu Gemini khiến mọi thứ trở nên mạch lạc hơn và bớt vội vã hơn một chút với mục đích theo đuổi ChatGPT của OpenAI. Google bị chế giễu suốt nhiều năm vì cách tiếp cận không nhất quán, đôi khi khó hiểu với việc xây dựng thương hiệu (chẳng hạn vô số ứng dụng nhắn tin của họ).
Google tuyên bố Gemini Ultra được thiết kế cho "các tác vụ cực kỳ phức tạp", vượt trội GPT-4 trong một số lĩnh vực, từ kiến thức về môn học như lịch sử và luật, đến việc tạo ra mã Python và các tác vụ đòi hỏi suy luận nhiều bước.
Gã khồng lồ công nghệ Mỹ cho biết Gemini vượt trội so với GPT-4 trong bài kiểm tra Massive Multitask Language Understanding (MMLU, hiểu ngôn ngữ đa nhiệm lớn), một trong những phương pháp phổ biến nhất để đánh giá kiến thức và kỹ năng giải quyết vấn đề của các mô hình AI.
Trên podcast công nghệ Hard Fork của tờ The New York Times, nhà báo Kevin Roose đã so sánh bài kiểm tra MMLU như "SAT dành cho các mô hình AI". Tuy nhiên, MMLU phức tạp hơn một bài kiểm tra chuẩn bị đại học thông thường. Theo thông báo của Google, bài kiểm tra này gồm 57 môn học, trong đó có Toán, Vật lý, Lịch sử, Luật, Y học và Đạo đức, để đánh giá cả kiến thức thế giới và khả năng giải quyết vấn đề.
SAT là bài kiểm tra đánh giá năng lực chuẩn hóa được sử dụng rộng rãi cho xét tuyển đại học trong hệ thống giáo dục Mỹ.
Theo Google, Gemini Ultra đạt 90% điểm trên MMLU, trong khi GPT-4 chỉ đạt 86,4%.
Thế nhưng, thành tích ấn tượng hơn: Gemini Ultra có thể là mô hình AI đầu tiên vượt trội các chuyên gia con người trên MMLU. Trong một báo cáo kỹ thuật về Gemini, Google cho biết các chuyên gia con người chỉ đạt khoảng 89,8 điểm.
"Nếu bạn quay lại hai hoặc ba năm trước và nói với các nhà nghiên cứu AI rằng Google sẽ có một mô hình đạt 90% điểm trên MMLU, vượt qua ngưỡng chuẩn của các chuyên gia con người, họ sẽ gọi đó là AGI", Kevin Roose cho hay.
AGI (trí tuệ nhân tạo tổng quát) là một dạng trí tuệ nhân tạo được giả định có thể xử lý các khả năng phức tạp của con người như trực giác và ý thức. AGI từng được coi là mục tiêu cuối cùng của lĩnh vực AI vì về mặt lý thuyết, đại diện cho thời điểm khi loài người tạo ra thứ gì đó thông minh bằng hoặc hơn chính mình.
Chưa hết, Google cho biết Gemini Ultra "vượt qua kết quả hiện tại của 30 trong số 32 thước đo học thuật phổ biến" để đánh giá các mô hình ngôn ngữ lớn.
Trong một thước đo, Gemini Ultra có tỷ lệ thành công là 74,4% trong tạo mã Python, so với 67% của GPT-4. Với một thước đo khác, Gemini Ultra có điểm đọc hiểu là 82,4 so với 80,9 của GPT-4.
Theo Google, GPT-4 hơn Gemini Ultra vài điểm phần trăm trong bài đánh giá khả năng suy luận logic thông thường cho các công việc hàng ngày. Tuy nhiên, Google cho biết một lợi thế mà Gemini có so với các mô hình khác là tính đa phương thức, nghĩa là được thiết kế từ đầu để xử lý nhiều loại dữ liệu, từ văn bản đến âm thanh, mã, hình ảnh và video.
Google cho biết tất cả thay đổi nêu trên sẽ được phản ánh ngay lập tức trên các sản phẩm. Dù tiếp tục nhắc nhở người dùng rằng Gemini đôi khi sẽ mắc sai lầm nhưng Google đã xóa nhãn "thử nghiệm" thường nằm ở đầu trang.
Trên thiết bị di động, Google ra mắt ứng dụng Gemini chuyên dụng để thay thế Assistant trên Android một cách hiệu quả. Trong khi người dùng iOS sẽ có nhận ứng dụng này thông qua một nút chuyển đổi mới trong ứng dụng Google.
Gemini trên thiết bị di động sẽ thực hiện nhiều điều mà Google đã giới thiệu vào tháng 10.2023, chẳng hạn cho phép người dùng chụp ảnh và đặt câu hỏi về bức ảnh hoặc xuất hiện dưới dạng lớp phủ trên smartphone Android để cung cấp cho người dùng thông tin về những gì họ đang xem trên trang web.