Gemini có thể thông minh hơn GPT-4, đạt đến ngưỡng AGI
Tuần này, Google đã công bố Gemini, đối thủ đáng gờm với GPT-4, mô hình ngôn ngữ lớn làm nền tảng cho ChatGPT của OpenAI.
Hôm 6.12, Sundar Pichai (Giám đốc điều hành Google) và Demis Hassabis (Giám đốc điều hành google DeepMind) đã giới thiệu Gemini với thế giới. Google mô tả đây là "mô hình AI thông minh và tổng quát nhất của mình cho đến nay".
Có ba phiên bản khác nhau về kích thước, khả năng gồm Ultra, Pro và Nano, Gemini là hệ thống trí tuệ nhân tạo (AI) đa phương thức, không chỉ xử lý văn bản mà còn cả mã, âm thanh, hình ảnh và video để phản hồi truy vấn từ người dùng.
Gemini cũng tích hợp trực tiếp vào các thiết bị di động, là lần đầu tiên cho một mô hình AI và điểm thú vị cho những người tạo ứng dụng. Google tự hào rằng Gemini cũng là mô hình AI "linh hoạt nhất" của họ, có khả năng chạy trên nhiều nguồn từ trung tâm dữ liệu đến smartphone.
Mô hình tiên tiến nhất Gemini Ultra không xuất hiện cho đến đầu năm 2024, được thiết kế cho "các tác vụ cực kỳ phức tạp", vượt trội GPT-4 trong một số lĩnh vực, từ kiến thức về môn học như Lịch sử và Luật, đến việc tạo ra mã Python và các tác vụ đòi hỏi suy luận nhiều bước, Google tuyên bố.
Google cho biết Gemini đã vượt trội so với GPT-4 trong bài kiểm tra Massive Multitask Language Understanding (MMLU, hiểu ngôn ngữ đa nhiệm lớn), một trong những phương pháp phổ biến nhất để đánh giá kiến thức và kỹ năng giải quyết vấn đề của các mô hình AI.
Trên podcast công nghệ Hard Fork của tờ The New York Times, nhà báo Kevin Roose đã so sánh bài kiểm tra MMLU như "SAT dành cho các mô hình AI". Tuy nhiên, MMLU phức tạp hơn một bài kiểm tra chuẩn bị đại học thông thường. Theo thông báo của Google, bài kiểm tra này gồm 57 môn học, trong đó có Toán, Vật lý, Lịch sử, Luật, Y học và Đạo đức, để đánh giá cả kiến thức thế giới và khả năng giải quyết vấn đề.
SAT là bài kiểm tra đánh giá năng lực chuẩn hóa được sử dụng rộng rãi cho xét tuyển đại học trong hệ thống giáo dục Mỹ.
Theo Google, Gemini Ultra đạt 90% điểm trên MMLU, trong khi GPT-4 chỉ đạt 86,4%.
Thế nhưng, thành tích ấn tượng hơn: Gemini Ultra có thể là mô hình AI đầu tiên vượt trội các chuyên gia con người trên MMLU. Trong một báo cáo kỹ thuật về Gemini, Google cho biết các chuyên gia con người chỉ đạt khoảng 89,8 điểm.
"Nếu bạn quay lại hai hoặc ba năm trước và nói với các nhà nghiên cứu AI rằng Google sẽ có một mô hình đạt 90% điểm trên MMLU, vượt qua ngưỡng chuẩn của các chuyên gia con người, họ sẽ gọi đó là AGI", Kevin Roose cho hay.
AGI (trí tuệ nhân tạo tổng quát) là một dạng trí tuệ nhân tạo được giả định có thể xử lý các khả năng phức tạp của con người như trực giác và ý thức. AGI từng được coi là mục tiêu cuối cùng của lĩnh vực AI vì về mặt lý thuyết, đại diện cho thời điểm khi loài người tạo ra thứ gì đó thông minh bằng hoặc hơn chính mình.
Chưa hết, Google cho biết Gemini Ultra "vượt qua kết quả hiện tại của 30 trong số 32 thước đo học thuật phổ biến" để đánh giá các mô hình ngôn ngữ lớn.
Trong một thước đo, Gemini Ultra có tỷ lệ thành công là 74,4% trong tạo mã Python, so với 67% của GPT-4. Với một thước đo khác, Gemini Ultra có điểm đọc hiểu là 82,4 so với 80,9 của GPT-4.
Theo Google, GPT-4 hơn Gemini Ultra vài điểm phần trăm trong bài đánh giá khả năng suy luận logic thông thường cho các công việc hàng ngày. Tuy nhiên, Google cho biết một lợi thế mà Gemini có so với các mô hình khác là tính đa phương thức, nghĩa là được thiết kế từ đầu để xử lý nhiều loại dữ liệu, từ văn bản đến âm thanh, mã, hình ảnh và video.
Oriol Vinyals, Phó chủ tịch nghiên cứu của Google DeepMind, nói trong một video giới thiệu Gemini rằng các mô hình đa phương thức khác được tạo ra bằng cách "ghép nối" những mô hình chỉ có văn bản, chỉ có hình ảnh và chỉ có âm thanh theo một "cách tối ưu".
Do đó, Google cho biết thiết kế của Gemini cho phép nó hiểu đầu vào tốt hơn các mô hình đa phương thức hiện có. Các nhà nghiên cứu đứng sau blog công nghệ SemiAnalysis cũng nói rằng Gemini có khả năng vượt GPT-4 về sức mạnh tính toán tuyệt đối.
Dù bản Ultra được đặt kỳ vọng cao, vẫn còn phải chờ xem bộ ba mô hình Gemini của Google sẽ đối đấu ra sao với OpenAI, vốn đã có lợi thế về người dùng.
Google nói với tờ Financial Times rằng, vì mô hình Gemini Nano được xây dựng để "chạy tự nhiên" trên smartphone Pixel nên các nhà phát triển Android sẽ dễ dàng xây dựng ứng dụng AI hơn.
Những phản hồi ban đầu về Gemini Pro, phiên bản kém tiên tiến hơn có thể truy cập thông qua chatbot Bard của Google, rất tích cực. Tuy nhiên, mô hình này cũng gặp phải vấn đề về độ chính xác và ảo giác (trả lời sai y như thật). Nó thậm chí còn khuyên người dùng sử dụng Google để tìm phần trả lời cho các câu hỏi gây tranh cãi.
Google tuyên bố Gemini Pro hoạt động tốt hơn GPT-3.5 (mô hình ngôn ngữ lớn làm nền tảng cho phiên bản ChatGPT miễn phí) và người dùng sẽ có thể thử nghiệm bản tinh chỉnh cho Bard bắt đầu từ ngày 6.12 (ban đầu chỉ bằng ngôn ngữ tiếng Anh).
Mihir Patel, kỹ sư nghiên cứu tại hãng MosaicML, đã đăng ảnh chụp màn hình lên X để so sánh phản hồi từ Gemini và GPT-4 với câu hỏi "Mamba trong học sâu (deep learning) là gì?". Mamba là một kiến trúc học sâu tương đối mới được phát triển bởi hãng Anakin AI.
Theo ảnh chụp màn hình, phản hồi của Gemini chi tiết hơn và cũng được liên kết với các tài liệu nghiên cứu bên ngoài. ChatGPT gần giống một bài viết thông minh trên Wikipedia.
Mihir Patel nhận xét: "Gemini quá tốt. Tốt hơn và nhanh hơn GPT-4 rất nhiều".
Một video cho thấy Gemini mô tả bức tranh phát triển hình con vịt đang bơi trong nước chính xác.
Các nhà phát triển có thể sẽ chào đón Gemini như một sự thay thế thú vị cho sản phẩm của OpenAI.
Vẫn còn nhiều ý kiến đánh giá về Gemini và khả năng của Google có thể thu hút người dùng từ ChatGPT hay không. Rất nhiều người dùng muốn thử nghiệm Gemini có thể phải chờ vì Google vẫn tiếp tục làm việc trên các phiên bản mô hình không phải tiếng Anh.
Sundar Pichai, Demis Hassabis và các lãnh đạo Google khác hẳn đã quen với tình thế tiến thoái lưỡng nan của nhà đổi mới - ý tưởng cho rằng các công ty lớn có nguy cơ mất đi vị trí dẫn đầu thị trường nếu không nhanh nhẹn trong việc phát triển sản phẩm.
Gemini là cơ hội để Google ngăn chặn quan điểm cho rằng hãng đang tụt hậu so với đối thủ OpenAI.
Google thông báo có kế hoạch đưa Gemini vào các sản phẩm phổ biến nhất của mình theo thời gian. Công ty cũng ra mắt Gemini Ultra cho Bard phiên bản mới có tên Bard Advanced vào năm tới.
Sissie Hsiao, Phó chủ tịch Google kiêm quản lý Bard and Assistant, không tiết lộ liệu có tốn phí để sử dụng Bard Advanced hay không nhưng không phủ nhận khả năng đó.
Hồi tháng 4, Sundar Pichai đã sáp nhập đơn vị DeepMind được đánh giá cao của Alphabet với nhóm AI nội bộ là Google Brain, để đẩy nhanh quá trình phát triển Gemini.
Trong một bản demo được trình chiếu cho báo chí, các nhà nghiên cứu DeepMind đã sử dụng Gemini để tìm kiếm hàng trăm nghìn tài liệu nghiên cứu nhằm trích xuất các loại dữ liệu cụ thể. Google cho biết Gemini có thể phân biệt giữa những bài viết có liên quan đến nghiên cứu và không liên quan. Thú vị hơn, họ cho Gemini xem một biểu đồ với dữ liệu cũ và yêu cầu nó tạo ra một phiên bản cập nhật với dữ liệu mới được vẽ.
Gemini được đào tạo và hỗ trợ bởi các bộ xử lý Tensor (TPU). Google sử dụng buổi giới thiệu Gemini để công bố Cloud TPU v5p mới và siêu máy tính AI mới sẽ được sử dụng để cải thiện hoạt động đào tạo và phân phối AI. Điều thú vị là Amin Vahdat, Phó chủ tịch của Google Cloud AI, cho biết Gemini sẽ chạy trên cả GPU và TPU trong tương lai, nhưng không nói rõ hơn điều đó.