Thấy gì từ sự ra mắt của Google Gemini, mô hình AI được coi là mạnh hơn cả GPT-4?
Google đã tiến một bước lớn trong kỷ nguyên AI khi ra mắt Gemini - mô hình ngôn ngữ lớn với nhiều ưu thế so với GPT-4 của OpenAI. Giới công nghệ thế giới đang xôn xao khi Gemini trình làng.
Khởi đầu của một kỷ nguyên mới
Có thể không ngoa khi nói rằng sự ra mắt của Gemini là khởi đầu cho một kỷ nguyên mới về AI của Google.
Gemini là mô hình ngôn ngữ lớn (LLM) mới nhất của Google, được Giám đốc điều hành Sundar Pichai giới thiệu lần đầu tại Hội nghị nhà phát triển I/O hồi tháng 6 và hiện vừa ra mắt ra công chúng. Ông Pichai và Giám đốc điều hành Google DeepMind, Demis Hassabis mô tả Gemini là một bước tiến vượt bậc trong mô hình AI mà sẽ được tích hợp trong hầu hết các sản phẩm của Google.
Gemini không chỉ là một mô hình AI đơn lẻ. Có một phiên bản nhẹ hơn tên là Gemini Nano được thiết kế để chạy tự nhiên và ngoại tuyến trên các thiết bị Android. Có một phiên bản mạnh mẽ hơn có tên Gemini Pro sẽ sớm hỗ trợ nhiều dịch vụ AI của Google và là xương sống của Bard kể từ hôm nay. Và có một mô hình thậm chí còn có khả năng mạnh mẽ hơn tên là Gemini Ultra, mô hình LLM mạnh nhất mà Google từng tạo ra và dường như được thiết kế chủ yếu cho các trung tâm dữ liệu và ứng dụng doanh nghiệp.
Google hiện đang ra mắt mô hình này theo một số cách: Bard hiện được cung cấp sức mạnh bởi Gemini Pro. Người dùng điện thoại Pixel 8 Pro sẽ được bổ sung thêm một vài tính năng nhờ Gemini Nano. Còn Gemini Ultra sẽ ra mắt vào năm tới. Các nhà phát triển và khách hàng doanh nghiệp sẽ có thể truy cập Gemini Pro thông qua Google Generative AI Studio hoặc Vertex AI trong Google Cloud bắt đầu từ ngày 13 tháng 12 năm nay.
Gemini hiện chỉ có sẵn bằng tiếng Anh và các ngôn ngữ khác chắc chắn sẽ sớm ra mắt. Giám đốc điều hành Google Sundar Pichai cho biết mô hình này sẽ được tích hợp vào Máy tìm kiếm (Search Engine) của hãng, các công cụ quảng cáo, trình duyệt Chrome cũng như các ứng dụng khác của Google, sử dụng trên toàn thế giới. Đây chính là tương lai của Google.
Đối thủ xứng tầm của GPT-4
OpenAI đã ra mắt ChatGPT cách đây một năm và ngay lập tức sản phẩm này trở thành ứng dụng khổng lồ trong lĩnh vực AI. Google cách đây một thập kỷ đã tuyên bố mình là công ty “ưu tiên AI”. Sự ra mắt của ChatGPT rõ ràng đã khiến Google cảm thấy xấu hổ khi ChatGPT hoạt động tốt như thế nào cũng như tốc độ công nghệ của OpenAI đã chiếm lĩnh ngành này. Cuối cùng thì Google đã sẵn sàng đáp trả.
Rất nhiều người sẽ đặt câu hỏi: Gemini của Google sẽ mạnh như thế nào so với GPT-4 của OpenAI? Điều này rõ ràng đã có trong tâm trí của Google trong thời gian vừa qua. Giám đốc điều hành Google DeepMind - ông Hassabis cho biết: “Chúng tôi đã phân tích rất kỹ lưỡng về các hệ thống và điểm chuẩn”.
Google đã chạy kiểm tra tính điểm 32 đề mục khác nhau để so sánh hai mô hình, từ các bài kiểm tra tổng thể như điểm chuẩn "hiểu ngôn ngữ đa tác vụ" đến điểm chuẩn "so sánh khả năng tạo mã Python" của hai mô hình.
“Tôi nghĩ về cơ bản chúng tôi đang dẫn trước GPT-4 ở 30 trên 32 đề mục”, ông Hassabis nói với một nụ cười trên môi. “Một số đề mục có khoảng cách chênh lệch điểm số rất nhỏ. Một số khác chênh lệch điểm lớn hơn”.
Trong những điểm chuẩn đó (thực sự hầu hết là gần sát nhau), lợi thế rõ ràng nhất của Gemini là khả năng hiểu và tương tác với video và âm thanh. Điều này phụ thuộc rất nhiều vào thiết kế: đa phương thức đã là một phần trong kế hoạch của Gemini ngay từ đầu. Google chưa đào tạo các mô hình riêng biệt cho hình ảnh và giọng nói, như cách OpenAI tạo ra DALL-E và Whisper, thay vào đó Google đã xây dựng một mô hình đa giác quan ngay từ đầu.
Ông Hassabis cho biết: “Chúng tôi luôn quan tâm đến những hệ thống rất, rất tổng quát, kết hợp tất cả các chế độ đó để thu thập càng nhiều dữ liệu càng tốt từ bất kỳ số lượng đầu vào và giác quan nào, sau đó đưa ra phản hồi đa dạng nhất có thể".
Hiện tại, các mô hình cơ bản nhất của Gemini là nhập văn bản và gửi văn bản, nhưng các mô hình mạnh mẽ hơn như Gemini Ultra có thể hoạt động với hình ảnh, video và âm thanh. Và Gemini sẽ còn nhiều khả năng hơn thế nữa”, ông Hassabis nói. “Chẳng hạn những thứ như cử động và chạm – giống kiểu robot”.
Theo thời gian, Gemini sẽ có nhiều giác quan hơn, nhận thức rõ hơn và trở nên chính xác và có căn cứ hơn. “Những mô hình này đang hiểu rõ hơn về thế giới xung quanh. Tất nhiên, chúng vẫn còn ảo giác, thành kiến và các vấn đề khác. Nhưng chúng càng hiểu biết nhiều sẽ càng hoạt động tốt hơn", ông Hassabis nói.
Tuy nhiên, điểm chuẩn chỉ là điểm chuẩn và cuối cùng, bài kiểm tra thực sự về khả năng của Gemini sẽ đến từ những người dùng hàng ngày muốn sử dụng nó để lên ý tưởng, tra cứu thông tin, viết code lập trình, v.v... Google dường như coi việc viết code nói riêng là một ưu điểm của Gemini. Google sử dụng một hệ thống tạo code mới có tên AlphaCode 2 mà công ty cho biết hoạt động tốt hơn 85% số người tham gia cuộc thi coding, tăng từ mức 50% đối với AlphaCode thế hệ đầu. Nhưng ông Sundar Pichai nói rằng người dùng sẽ nhận thấy sự cải thiện ở mọi thứ mà Gemini được ứng dụng.
Điều quan trọng không kém đối với Google là Gemini rõ ràng là một mô hình hiệu quả hơn nhiều. Nó được đào tạo trên Bộ xử lý Tensor của riêng Google và chạy nhanh hơn cũng như rẻ hơn so với các mô hình trước đây của Google như PaLM. Bên cạnh mẫu mới, Google cũng ra mắt phiên bản mới của hệ thống TPU, TPU v5p - một hệ thống điện toán được thiết kế để sử dụng trong các trung tâm dữ liệu dành cho đào tạo và chạy các mô hình lớn.
Hướng tới mô hình AI tự sinh
Với Pichai và Hassabis, rõ ràng 2 vị lãnh đạo Google coi việc ra mắt Gemini vừa là sự khởi đầu của một dự án lớn hơn vừa là một bước thay đổi của bản thân. Gemini là mô hình mà Google đã chờ đợi, mô hình mà Google đã hướng tới trong nhiều năm, thậm chí có thể là mô hình mà lẽ công ty phải có trước khi OpenAI và ChatGPT thống trị thế giới.
Google đã tuyên bố “mã đỏ” (khẩn cấp - PV) sau khi ChatGPT ra mắt và được cho là cố gắng bắt kịp kể từ đó. Công ty dường như vẫn đang cố gắng giữ vững câu thần chú “táo bạo và có trách nhiệm” của mình. Cả ông Hassabis và Pichai đều nói rằng họ không yêu cầu Gemini phải tiến quá nhanh chỉ để bắt kịp GPT, đặc biệt là khi thế giới đang tiến gần hơn đến giấc mơ AI cuối cùng: AI tự sinh - thuật ngữ chỉ AI có khả năng tự cải thiện, thông minh hơn con người và sẵn sàng thay đổi thế giới.
Ông Hassabis chia sẻ: “Khi chúng tôi tiếp cận AI tự sinh, mọi thứ sẽ khác. Đó là một loại công nghệ mà tôi nghĩ chúng ta phải tiếp cận nó một cách thận trọng. Thận trọng nhưng lạc quan”.
Bảo đảm tính bảo mật và độ tin cậy
Google cho biết họ đã làm việc chăm chỉ để đảm bảo sự an toàn và trách nhiệm của Gemini, thông qua thử nghiệm trong nội bộ lẫn thử nghiệm bên ngoài cũng như dùng đội đỏ (một nhóm giả vờ là tin tặc, cố gắng xâm nhập sau đó báo cáo lại các lỗ hổng tìm thấy cho đơn vị phát triển sản phẩm - PV).
Ông Pichai chỉ ra rằng việc đảm bảo tính bảo mật và độ tin cậy của dữ liệu là đặc biệt quan trọng đối với các sản phẩm dành cho doanh nghiệp, đây là nơi mà hầu hết ứng dụng AI tạo ra lợi nhuận. Nhưng ông Hassabis thừa nhận rằng, một trong những rủi ro khi tung ra một hệ thống AI tiên tiến là nó sẽ gặp phải các lỗi và các lỗ hổng mà không ai có thể lường trước được.
Google đang phát triển phiên bản Gemini Ultra một cách đặc biệt chậm rãi. Ông Hassabis so sánh nó với phiên bản beta được kiểm soát, với “khu vực thử nghiệm an toàn hơn” dành cho mô hình có khả năng và không bị hạn chế nhất của Google. Về cơ bản, nếu có một kẻ nào đó tìm cách phá hoại Gemini, Google sẽ cố gắng tìm ra lỗ hổng trước kẻ đó.
Trong nhiều năm qua, Pichai và các giám đốc điều hành khác của Google đã ca ngợi tiềm năng của AI. Bản thân ông Pichai đã hơn một lần nói rằng AI sẽ có tác dụng thay đổi cuộc sống loài người nhiều hơn là tìm ra lửa hay phát minh ra điện. Ở thế hệ đầu tiên này, mô hình Gemini có thể chưa thay đổi được thế giới. Nó chỉ có thể giúp Google bắt kịp OpenAI trong cuộc đua xây dựng mô hình AI tạo sinh tốt nhất.
Nhưng ông Pichai, Hassabis và mọi lãnh đạo khác tại Google dường như nghĩ rằng đây là sự khởi đầu của một điều gì đó thực sự to lớn. Web đã biến Google trở thành gã khổng lồ công nghệ; Gemini có thể đưa Google lớn hơn nữa.