Bảng xếp hạng độ 'thật thà' của những chatbot AI đình đám hiện nay
Google thừa nhận các siêu AI nổi tiếng nhất hiện nay vẫn nói xạo tới 30%.
Chúng ta thường mặc định AI là "bách khoa toàn thư" biết tuốt. Tuy nhiên, một báo cáo mới nhất từ chính Google đã dội một gáo nước lạnh vào niềm tin này. Theo kết quả Google công bố dựa trên bộ công cụ đánh giá mới mang tên FACTS Benchmark Suite, kết quả cho thấy một thực tế 'khó nuốt' rằng các mô hình AI vẫn sai khoảng 30%, tức 1 trong mỗi 3 câu trả lời, ngay cả khi chúng diễn đạt với giọng điệu vô cùng tự tin và trôi chảy.

AI có tỷ lệ nói dối, bịa chuyện khá lớn.
Bảng xếp hạng "AI nào nói thật nhất?"
Trong bài kiểm tra khắc nghiệt nói trên, Google đã so găng 'gà nhà' với các đối thủ sừng sỏ nhất thị trường. Kết quả cụ thể như sau:
- Hạng 1: Gemini 3 Pro - Đạt 69% độ chính xác.
- Hạng 2: Gemini 2.5 Pro và ChatGPT-5 (OpenAI) - Đạt xấp xỉ 62%.
- Hạng 3: Grok 4 (xAI) - Đạt khoảng 54%.
- Hạng 4: Claude 4.5 Opus (Anthropic) - Đạt khoảng 51%.
Dù dẫn đầu, nhưng con số 69% của Gemini 3 Pro cho thấy vẫn còn một chặng đường rất dài để AI có thể trở thành một nguồn thông tin chuẩn xác tuyệt đối.

Bảng xếp hạng độ "thật thà" của các AI.
Bộ chuẩn FACTS không chỉ kiểm tra kiến thức thông thường mà còn đánh giá qua 4 tiêu chí gồm kiến thức tham số, kỹ năng tìm kiếm, khả năng bám sát tài liệu và hiểu biết đa phương thức.
Kết quả gây sốc nhất nằm ở phần đa phương thức (Multimodal). Khi được yêu cầu đọc các biểu đồ, sơ đồ hoặc phân tích hình ảnh, độ chính xác của hầu hết các mô hình đều tụt xuống dưới mức 50%. Điều này cực kỳ nguy hiểm trong môi trường doanh nghiệp, nơi một chatbot có thể tự tin đọc sai biểu đồ doanh thu hoặc trích xuất sai số liệu từ hợp đồng, dẫn đến những hậu quả tai hại.
Tại sao báo cáo này lại quan trọng? Bởi vì hầu hết các bài thử nghiệm AI trước đây chỉ quan tâm xem AI có làm được việc hay không, chứ không kiểm tra xem nó có nói đúng sự thật hay không.
Đối với các lĩnh vực đòi hỏi sự chính xác tuyệt đối như tài chính, y tế hay luật pháp, việc tin tưởng mù quáng vào AI là một rủi ro lớn. Kết luận của Google rất rõ ràng là AI đang tốt lên, nhưng chúng vẫn cần sự giám sát chặt chẽ của con người. Đừng bao giờ coi chatbot là nguồn chân lý duy nhất mà không có sự kiểm chứng.













