AI thua sạch túi khi dự đoán kết quả Ngoại hạng Anh

Các mô hình trí tuệ nhân tạo (AI) từ Google, OpenAI và Anthropic đều đã thất bại khi tham gia đặt cược vào các trận đấu bóng đá Ngoại hạng Anh trong suốt một mùa giải.

Trí tuệ nhân tạo đang chứng minh sức mạnh to lớn trong nhiều lĩnh vực, từ viết mã phần mềm phức tạp đến phân tích lượng dữ liệu khổng lồ.

Tuy nhiên, một nghiên cứu mới đây đã chỉ ra rằng những hệ thống tiên tiến nhất thế giới vẫn đang gặp vô vàn khó khăn khi phải dự đoán và xử lý những vấn đề mang tính thực tế trong khoảng thời gian dài.

Quy luật của bóng đá nằm ngoài tầm thống kê của trí tuệ nhân tạo

Quy luật của bóng đá nằm ngoài tầm thống kê của trí tuệ nhân tạo

Báo cáo mang tên "KellyBench" vừa được công ty khởi nghiệp General Reasoning công bố tuần này đã làm rõ khoảng cách rất lớn giữa khả năng ngày càng nâng cao của máy móc trong một số nhiệm vụ nhất định và những khiếm khuyết của chúng khi phải đối mặt với các vấn đề mang tính con người.

Thử nghiệm KellyBench và sự chật vật của các hệ thống AI

Công ty General Reasoning có trụ sở tại London đã tiến hành một thử nghiệm độc đáo bằng cách đưa 8 hệ thống trí tuệ nhân tạo hàng đầu vào một môi trường mô phỏng ảo của mùa giải Ngoại hạng Anh 2023-2024.

Các mô hình này được cung cấp một khối lượng dữ liệu lịch sử chi tiết và các số liệu thống kê cụ thể về từng đội bóng cũng như kết quả của những trận đấu trước đó.

Nhiệm vụ của các hệ thống này là tự xây dựng những mô hình dự đoán nhằm tối đa hóa lợi nhuận thu về và quản lý rủi ro một cách hiệu quả nhất. Các tác tử AI này sau đó tiến hành đặt cược vào kết quả thắng thua của các trận đấu và số lượng bàn thắng được ghi.

Thử nghiệm này được thiết kế để đánh giá khả năng thích nghi của máy móc trước những sự kiện mới phát sinh và cách chúng cập nhật dữ liệu cầu thủ khi mùa giải diễn tiến.

Trong quá trình thử nghiệm, các hệ thống không được phép truy cập mạng internet để tra cứu kết quả thực tế. Mỗi mô hình được cấp một số vốn ban đầu chuẩn hóa là 100.000 bảng Anh và có 3 cơ hội độc lập để cố gắng tạo ra lợi nhuận.

Kết quả thu về cho thấy một bức tranh khá ảm đạm. Mô hình Claude Opus 4.6 của Anthropic là hệ thống hoạt động tốt nhất trong nhóm, nhưng vẫn phải chịu mức lỗ trung bình là 11% và chỉ suýt soát hòa vốn trong một lần thử với mức âm 0,2%. Mô hình GPT-5.4 của OpenAI bám sát phía sau với mức lỗ trung bình 13,6%.

Trong khi đó, hệ thống Gemini 3.1 Pro của Google lại thể hiện một phong độ vô cùng thất thường. Mô hình này xuất sắc tạo ra mức lợi nhuận 33,7% trong một lần thử nghiệm, nhưng lại nhanh chóng đánh mất toàn bộ số vốn và phá sản hoàn toàn ở một lượt thử khác, dẫn đến mức lỗ trung bình lên tới 43,3%.

Phiên bản Gemini Flash 3.1 LP của Google cũng nhận kết quả đáng buồn với mức lỗ trung bình 58,4%. Các đại diện khác tham gia thử nghiệm như Z.AI GLM-5 và Moonshot Kimi K2.5 đều ghi nhận mức lỗ trung bình rất lớn, lần lượt là 58,8% và 68,3%.

Đáng thất vọng nhất là hệ thống Grok 4.20 của xAI và Arcee Trinity. Cả hai mô hình này đều nhanh chóng làm tiêu tan 100% số tiền đầu tư và hoàn toàn không thể hoàn thành đủ các lượt thử nghiệm theo yêu cầu.

Các chuyên gia thực hiện nghiên cứu đã đi đến kết luận rằng mọi mô hình tiên tiến nhất được đánh giá đều mất tiền trong suốt mùa giải và rất nhiều hệ thống đã trải qua tình trạng phá sản. Họ khẳng định trí tuệ nhân tạo đã hoạt động kém hơn con người một cách có hệ thống trong thử nghiệm cá cược này.

Giới hạn của AI trong thế giới thực như Ngoại hạng Anh

Kết quả của nghiên cứu này mang lại một sự an ủi nhất định cho những chuyên gia trí thức và các doanh nghiệp đang lo lắng về nguy cơ bị máy móc cướp mất công việc.

Nỗi lo sợ này vốn dĩ đã gây ra nhiều xáo trộn trong các ngành công nghiệp trải dài từ tài chính đến tiếp thị. Việc máy móc liên tục vấp ngã khi dự đoán kết quả thể thao cho thấy con người vẫn nắm giữ những lợi thế đặc biệt trong việc đánh giá và đưa ra quyết định ở những môi trường đầy biến động.

Giám đốc điều hành của General Reasoning và đồng thời là một trong những tác giả của nghiên cứu, ông Ross Taylor, đã đưa ra những nhận định sâu sắc về vấn đề này. Ông cho rằng hiện nay có quá nhiều sự cường điệu về khả năng tự động hóa của trí tuệ nhân tạo. Thế giới công nghệ lại đang thiếu vắng những thước đo chính xác để đánh giá hiệu quả của máy móc khi được đặt vào một khoảng thời gian dài hạn.

Theo góc nhìn của vị cựu chuyên gia nghiên cứu từ Meta, nhiều tiêu chuẩn đang được sử dụng rộng rãi để kiểm tra trí tuệ nhân tạo hiện nay đều chứa đựng những khiếm khuyết lớn. Chúng thường được thiết lập trong những môi trường mang tính tĩnh lặng. Những môi trường thử nghiệm khép kín này có rất ít điểm chung với sự hỗn loạn và tính phức tạp của thế giới thực.

Báo cáo của General Reasoning, dù chưa qua quá trình bình duyệt chính thức, đã cung cấp một góc nhìn cân bằng cần thiết trước sự phấn khích ngày càng tăng tại Thung lũng Silicon. Các tập đoàn công nghệ đang say sưa với những bước nhảy vọt khổng lồ của AI trong khả năng hoàn thành các nhiệm vụ lập trình phần mềm mà gần như không cần đến sự can thiệp của con người. Tuy nhiên, việc xử lý mã lệnh dựa trên những quy tắc logic chặt chẽ hoàn toàn khác biệt với việc đưa ra quyết định trong một môi trường bóng đá ngập tràn yếu tố con người và sự ngẫu nhiên.

Theo ông Ross Taylor, khi chúng ta thử áp dụng trí tuệ nhân tạo vào một số nhiệm vụ trong thế giới thực, chúng lại hoạt động thực sự tồi tệ. Ông thừa nhận rằng kỹ thuật phần mềm là một lĩnh vực vô cùng quan trọng và mang lại giá trị kinh tế khổng lồ.

Tuy nhiên, xã hội vẫn còn vô vàn những hoạt động khác đòi hỏi tầm nhìn trong những khoảng thời gian dài hơn. Đây chính là những lĩnh vực mà các nhà phát triển công nghệ cần phải xem xét một cách nghiêm túc để hiểu rõ giới hạn thực sự của những cỗ máy thông minh do chính con người tạo ra.

Bùi Tú

Nguồn Một Thế Giới: https://1thegioi.vn/ai-thua-sach-tui-khi-du-doan-ket-qua-ngoai-hang-anh-250050.html