Grok 3 của Elon Musk và o3-mini của Sam Altman: Mô hình AI nào tốt hơn?
Cùng được quảng cáo là mô hình AI biết suy luận để đưa ra câu trả lời tốt nhất, vậy Grok 3 của tỷ phú Elon Musk hay o3-mini của Sam Altman, mô hình nào dùng tốt hơn? Liệu Grok 3 có thông minh hay chỉ là chiêu thổi phồng của Elon Musk?

Đôi nét về Grok 3
Grok 3 là mô hình AI do công ty x.AI của tỷ phú Elon Musk phát triển. Nó là phiên bản tiếp theo của các mô hình Grok 1 và Grok 2.
Grok 3 được Elon Musk quảng cáo là "AI thông minh nhất trên Trái Đất". Với nền tảng hơn 200 nghìn GPU NVIDIA H100, Grok 3 được đào tạo với khả năng suy luận sâu, được cho là vượt trội hơn GPT-4o và DeepSeek-V3 trên nhiều điểm chuẩn khác nhau trong toán học, khoa học và lập trình (theo bài test của x.AI).
Grok 3 có 2 chế độ suy luận là "Think" - dành cho tác vụ và truy vấn đơn giản, và "Big Brain" - dành cho các trường hợp cần nhiều mức độ tính toán hơn để giải quyết các vấn đề phức tạp hơn. Ngoài ra, nó còn bao gồm một mô hình "trợ lý" gọi là Deep Search có khả năng phân tích thông tin từ Internet và mạng xã hội X để trả lời các truy vấn của người dùng.
Để sử dụng Grok 3, người dùng truy cập website https://grok.com/ và đăng nhập vào tài khoản trả phí. Từ menu lựa chọn mô hình, nhấp vào “Grok 3” và bắt đầu truy vấn. Người dùng cũng có thể tải xuống ứng dụng Grok trên điện thoại Android/iOS và nâng cấp lên “SuperGrok” để sử dụng Grok 3.
O3-mini là gì?
O3-mini là một mô hình ngôn ngữ lớn (LLM) tiên tiến do OpenAI phát triển với các kỹ năng lý luận và giải quyết vấn đề được nâng cao so với phiên bản tiền nhiệm o1.
O3-mini là phiên bản tinh gọn của o3, nhẹ hơn, nhanh hơn và giá cả phải chăng hơn. Mặc dù có kích thước nhỏ hơn, o3-mini vẫn vượt trội trong các tác vụ mã hóa, toán học và nghiên cứu. Người dùng thậm chí có thể tùy chỉnh độ sâu lý luận của mình để tối ưu hóa tốc độ hoặc độ chính xác.
Để sử dụng o3-mini, truy cập https://chatgpt.com/ và chọn "Reason" (lý do) trước khi nhập truy vấn. Sau đó, chatbot sẽ sử dụng mô hình nâng cao này và suy nghĩ trước khi trả lời.
Grok 3 vs o3-mini: So sánh hiệu suất
Một blog về AI của Ấn Độ đã thực hiện so sánh hai mô hình Grok 3 và o3-mini bằng 4 bài test khác nhau về khả năng suy luận, viết code, nghiên cứu và đa phương thức, sau đó xem xét đầu ra do hai mô hình tạo ra, chấm điểm để thấy mô hình nào tốt hơn.
1. Khả năng suy luận
Trong bài test này, chuyên gia yêu cầu cả hai mô hình thiết kế một trò chơi xếp gạch dựa trên logic với lời nhắc (promt) là: "Sử dụng pygame, tạo một trò chơi kết hợp giữa Tetris và Bejeweled. Các dòng code có thể rất dài. Xuất ra dưới dạng một file. Làm cho nó trở nên tuyệt vời".
Đây là kết quả do Grok 3 tạo ra:
(Bấm để xem video)
Còn đây là kết quả của o3-mini:

Kết quả cho thấy Grok 3 đã tạo ra được trò chơi xếp gạch với các miếng gạch được xếp chồng rất logic, cũng như thiết lập điều kiện cho trò chơi kết thúc. Toàn bộ trò chơi có cảm giác rất liền mạch. Trong khi đó, o3-mini không nắm bắt được sự phức tạp của trò chơi, không tạo ra được logic xếp chồng nào. Khi chạy đầu ra, kết quả nhận được chỉ là một lưới các đường thẳng không có viên gạch nào rơi xuống theo thời gian thực.
Điểm số: Grok 3: 1 | o3-mini: 0
2. Khả năng viết code
Yêu cầu là tạo một đồ họa 3D mô phỏng vệ tinh phóng từ Trái Đất, hạ cánh trên Sao Hỏa và sau đó quay trở lại Trái Đất tại thời điểm phóng tiếp theo.
Đây là kết quả do Grok 3 tạo ra:
Còn đây là kết quả của o3-mini:

Bài test cho thấy Grok 3 suy nghĩ trong một thời gian dài - 114 giây trước khi viết code. Đầu tiên là nó mô tả cách viết code, liệt kê các thư viện mà nó sử dụng. Grok 3 hiểu được các yêu cầu về toán học và vật lý đằng sau việc tạo hoạt hình 3D - chuyển động quỹ đạo của tàu vũ trụ quanh các hành tinh.
Ngược lại, o3-mini suy nghĩ rất nhanh, chỉ mất 7 giây để viết ra những dòng mô tả về các thư viện mà nó sử dụng để viết code và sau đó sản sinh các dòng code đầu tiên. Tuy nhiên, nó đã không tính được chuyển động của quỹ đạo, cũng như không bao gồm tàu vũ trụ và mặt trời trong mã của nó. Hơn nữa, o3-mini kết thúc bằng việc tạo ra một hình ảnh 3D chứ không phải là hoạt hình 3D như yêu cầu.
Điểm số: Grok 3: 1 | o3-mini: 0
3. Khả năng tìm kiếm sâu
Cả 2 cùng nhận được một câu hỏi: "Lần phóng vệ tinh của SpaceX tiếp theo là vào thời gian nào?"
Đây là trả lời của Grok 3:
(Bấm để xem video)
Đây là trả lời của o3-mini:
(Bấm để xem video)
Grok 3 đề cập rõ ràng rằng ngày phóng tàu tiếp theo của công ty SpaceX không sớm hơn ngày 24 tháng 2 năm 2025. Nó cũng đề cập đến cách tiếp cận của mình để tạo phản hồi khi liệt kê các nguồn tham chiếu, liệt kê các chi tiết mà nó thu thập được từ nhiều nguồn khác nhau. Tuy nhiên nó phải mất tới 100 giây để có kết quả này.
Trong khi đó, o3-mini chỉ mất vài giây để phản hồi. Mô hình AI này nêu rằng ngày phóng được ấn định là tháng 3 năm 2025 và sau đó liệt kê một số yếu tố có thể ảnh hưởng đến ngày phóng. Nó cung cấp một số thông tin bổ sung về SpaceX và sau đó kết thúc phản hồi bằng một vài liên kết tham khảo.
Điểm số: Grok 3: 0 | o3-mini: 1
4. Khả năng tạo hình ảnh
Cả hai mô hình AI được yêu cầu tạo ra một hình đồ họa vector (SVG), cụ thể là vẽ một con bồ nông đang đạp xe.
Đây là kết quả của Grok 3:

Ảnh: Andrej Karpathy trên X
Còn đây là kết quả của o3-mini:

So sánh 2 ảnh trên ta thấy Grok 3 tạo ra hình ảnh vui nhộn về một chú chim đang đạp xe đạp. Hình ảnh trông giống như được vẽ bởi một đứa trẻ 5 tuổi. Trong khi đó, o3-mini tạo ra hình ảnh đầy màu sắc và sống động của một chú bồ nông đang đạp xe đạp. Hình ảnh này có cảm giác như được tạo ra bởi một họa sĩ.
Cả hai mô hình đều có thể tạo ra hình ảnh, nhưng Grok 3 vẫn đang trong quá trình học hỏi. Hình ảnh mà nó tạo ra có vẻ nghiệp dư và thiếu nét nghệ thuật. Ngược lại, hình ảnh do o3-mini tạo ra có nhiều chi tiết và nắm bắt được bản chất thực sự của con bồ nông và chiếc xe đạp.
Điểm số: Grok 3: 0 | o3-mini: 1
Kết quả chung cuộc: Grok 3: 2 | o3-mini: 2

Kết luận
Hai mô hình đã hòa nhau khi mỗi mô hình có một ưu thế riêng. Với Grok 3, Elon Musk hứa hẹn những cải tiến sẽ diễn ra hằng ngày. Trong khi đó, Sam Altman đã hứa hẹn về GPT-5, nếu tin đồn là đúng, sẽ đưa chúng ta đến gần hơn với loại hình trí tuệ nhân tạo thông minh giống người (AGI) hơn bao giờ hết. Trong cuộc đua trở thành mô hình AI hàng đầu, có một điều chắc chắn là với mỗi mô hình sắp ra mắt, chúng ta sẽ thấy những cải tiến có thể cách mạng hóa cách chúng ta làm việc, sống và suy nghĩ.