AI thua sạch túi khi dự đoán kết quả Ngoại hạng Anh

Các mô hình trí tuệ nhân tạo (AI) từ Google, OpenAI và Anthropic đều đã thất bại khi tham gia đặt cược vào các trận đấu bóng đá Ngoại hạng Anh trong suốt một mùa giải.

13 giờ trước Gốc

Trí tuệ nhân tạo đang chứng minh sức mạnh to lớn trong nhiều lĩnh vực, từ viết mã phần mềm phức tạp đến phân tích lượng dữ liệu khổng lồ.

Tuy nhiên, một nghiên cứu mới đây đã chỉ ra rằng những hệ thống tiên tiến nhất thế giới vẫn đang gặp vô vàn khó khăn khi phải dự đoán và xử lý những vấn đề mang tính thực tế trong khoảng thời gian dài.

Quy luật của bóng đá nằm ngoài tầm thống kê của trí tuệ nhân tạo

Báo cáo mang tên "KellyBench" vừa được công ty khởi nghiệp General Reasoning công bố tuần này đã làm rõ khoảng cách rất lớn giữa khả năng ngày càng nâng cao của máy móc trong một số nhiệm vụ nhất định và những khiếm khuyết của chúng khi phải đối mặt với các vấn đề mang tính con người.

Thử nghiệm KellyBench và sự chật vật của các hệ thống AI

Công ty General Reasoning có trụ sở tại London đã tiến hành một thử nghiệm độc đáo bằng cách đưa 8 hệ thống trí tuệ nhân tạo hàng đầu vào một môi trường mô phỏng ảo của mùa giải Ngoại hạng Anh 2023-2024.

Các mô hình này được cung cấp một khối lượng dữ liệu lịch sử chi tiết và các số liệu thống kê cụ thể về từng đội bóng cũng như kết quả của những trận đấu trước đó.

Nhiệm vụ của các hệ thống này là tự xây dựng những mô hình dự đoán nhằm tối đa hóa lợi nhuận thu về và quản lý rủi ro một cách hiệu quả nhất. Các tác tử AI này sau đó tiến hành đặt cược vào kết quả thắng thua của các trận đấu và số lượng bàn thắng được ghi.

Thử nghiệm này được thiết kế để đánh giá khả năng thích nghi của máy móc trước những sự kiện mới phát sinh và cách chúng cập nhật dữ liệu cầu thủ khi mùa giải diễn tiến.

Trong quá trình thử nghiệm, các hệ thống không được phép truy cập mạng internet để tra cứu kết quả thực tế. Mỗi mô hình được cấp một số vốn ban đầu chuẩn hóa là 100.000 bảng Anh và có 3 cơ hội độc lập để cố gắng tạo ra lợi nhuận.

Kết quả thu về cho thấy một bức tranh khá ảm đạm. Mô hình Claude Opus 4.6 của Anthropic là hệ thống hoạt động tốt nhất trong nhóm, nhưng vẫn phải chịu mức lỗ trung bình là 11% và chỉ suýt soát hòa vốn trong một lần thử với mức âm 0,2%. Mô hình GPT-5.4 của OpenAI bám sát phía sau với mức lỗ trung bình 13,6%.

Trong khi đó, hệ thống Gemini 3.1 Pro của Google lại thể hiện một phong độ vô cùng thất thường. Mô hình này xuất sắc tạo ra mức lợi nhuận 33,7% trong một lần thử nghiệm, nhưng lại nhanh chóng đánh mất toàn bộ số vốn và phá sản hoàn toàn ở một lượt thử khác, dẫn đến mức lỗ trung bình lên tới 43,3%.

Phiên bản Gemini Flash 3.1 LP của Google cũng nhận kết quả đáng buồn với mức lỗ trung bình 58,4%. Các đại diện khác tham gia thử nghiệm như Z.AI GLM-5 và Moonshot Kimi K2.5 đều ghi nhận mức lỗ trung bình rất lớn, lần lượt là 58,8% và 68,3%.

Đáng thất vọng nhất là hệ thống Grok 4.20 của xAI và Arcee Trinity. Cả hai mô hình này đều nhanh chóng làm tiêu tan 100% số tiền đầu tư và hoàn toàn không thể hoàn thành đủ các lượt thử nghiệm theo yêu cầu.

Các chuyên gia thực hiện nghiên cứu đã đi đến kết luận rằng mọi mô hình tiên tiến nhất được đánh giá đều mất tiền trong suốt mùa giải và rất nhiều hệ thống đã trải qua tình trạng phá sản. Họ khẳng định trí tuệ nhân tạo đã hoạt động kém hơn con người một cách có hệ thống trong thử nghiệm cá cược này.

Giới hạn của AI trong thế giới thực như Ngoại hạng Anh

Kết quả của nghiên cứu này mang lại một sự an ủi nhất định cho những chuyên gia trí thức và các doanh nghiệp đang lo lắng về nguy cơ bị máy móc cướp mất công việc.

Nỗi lo sợ này vốn dĩ đã gây ra nhiều xáo trộn trong các ngành công nghiệp trải dài từ tài chính đến tiếp thị. Việc máy móc liên tục vấp ngã khi dự đoán kết quả thể thao cho thấy con người vẫn nắm giữ những lợi thế đặc biệt trong việc đánh giá và đưa ra quyết định ở những môi trường đầy biến động.

Giám đốc điều hành của General Reasoning và đồng thời là một trong những tác giả của nghiên cứu, ông Ross Taylor, đã đưa ra những nhận định sâu sắc về vấn đề này. Ông cho rằng hiện nay có quá nhiều sự cường điệu về khả năng tự động hóa của trí tuệ nhân tạo. Thế giới công nghệ lại đang thiếu vắng những thước đo chính xác để đánh giá hiệu quả của máy móc khi được đặt vào một khoảng thời gian dài hạn.

Theo góc nhìn của vị cựu chuyên gia nghiên cứu từ Meta, nhiều tiêu chuẩn đang được sử dụng rộng rãi để kiểm tra trí tuệ nhân tạo hiện nay đều chứa đựng những khiếm khuyết lớn. Chúng thường được thiết lập trong những môi trường mang tính tĩnh lặng. Những môi trường thử nghiệm khép kín này có rất ít điểm chung với sự hỗn loạn và tính phức tạp của thế giới thực.

Báo cáo của General Reasoning, dù chưa qua quá trình bình duyệt chính thức, đã cung cấp một góc nhìn cân bằng cần thiết trước sự phấn khích ngày càng tăng tại Thung lũng Silicon. Các tập đoàn công nghệ đang say sưa với những bước nhảy vọt khổng lồ của AI trong khả năng hoàn thành các nhiệm vụ lập trình phần mềm mà gần như không cần đến sự can thiệp của con người. Tuy nhiên, việc xử lý mã lệnh dựa trên những quy tắc logic chặt chẽ hoàn toàn khác biệt với việc đưa ra quyết định trong một môi trường bóng đá ngập tràn yếu tố con người và sự ngẫu nhiên.

Theo ông Ross Taylor, khi chúng ta thử áp dụng trí tuệ nhân tạo vào một số nhiệm vụ trong thế giới thực, chúng lại hoạt động thực sự tồi tệ. Ông thừa nhận rằng kỹ thuật phần mềm là một lĩnh vực vô cùng quan trọng và mang lại giá trị kinh tế khổng lồ.

Tuy nhiên, xã hội vẫn còn vô vàn những hoạt động khác đòi hỏi tầm nhìn trong những khoảng thời gian dài hơn. Đây chính là những lĩnh vực mà các nhà phát triển công nghệ cần phải xem xét một cách nghiêm túc để hiểu rõ giới hạn thực sự của những cỗ máy thông minh do chính con người tạo ra.

Bùi Tú

Nguồn Một Thế Giới: https://1thegioi.vn/ai-thua-sach-tui-khi-du-doan-ket-qua-ngoai-hang-anh-250050.html

Thất bại lớn của OpenAI

3 giờ

Mỹ và EU căng thẳng quanh loạt án phạt hàng tỷ euro với các tập đoàn công nghệ

8 giờ

Ứng dụng Google khiến người dùng bỏ luôn bàn phím

Tin nóng

Thụy Sĩ xây dựng hệ thống pin oxy hóa khử mạnh nhất thế giới

11 giờ

Thụy Sĩ đang xây dựng hệ thống pin lưu trữ năng lượng điện hóa lớn nhất thế giới, với mức công suất tương đương với nhà máy điện hạt nhân lớn nhất Thụy Sĩ.

iPhone gập đầu tiên của Apple 'chốt lịch' ra mắt tháng 9

6 giờ

Sau nhiều năm đứng ngoài cuộc đua smartphone màn hình gập, Apple được cho là đã sẵn sàng bước vào sân chơi này với mẫu iPhone gập đầu tiên. Dự kiến Apple đang đi đúng lộ trình ra mắt vào tháng 9/2026 - một mốc thời gian mang nhiều ý nghĩa chiến lược.

Đường link 'lạ' trong sách Tin học lớp 3 gây xôn xao

7 giờ

Link 'video thiếu nhi' trong sách Tin học lớp 3 bất ngờ chuyển hướng tới nội dung nhạy cảm, gây xôn xao dư luận. Nhà xuất bản Đại học Huế cho biết đang phối hợp kiểm tra và khuyến cáo ngừng truy cập.

Chạy đua tháo dỡ 286 linh kiện tàu Orion cho sứ mệnh lịch sử tiếp theo

3 giờ

Những tính toán phức tạp nhất về cơ học quỹ đạo sẽ dần được hóa giải với Artemis II để chuẩn bị cho sứ mệnh Artemis III đầy tham vọng.

Lừa đảo công nghệ mới: Khi màn hình điện thoại biết nói dối

8 giờ

Một ứng dụng lạ xuất hiện tại Việt Nam cho phép người dùng tùy ý chọn số hiển thị khi gọi đi. Đây là chiêu trò lừa đảo công nghệ trên điện thoại.

Nhiều tiến bộ ngành Can thiệp mạch thần kinh Việt Nam

5 giờ

Ngày 11/4, tại TP Huế, Hội nghị Can thiệp mạch thần kinh toàn quốc lần thứ 2 chính thức khai mạc.

Tin mới

Cần Thơ thúc đẩy điện mặt trời áp mái gắn với lưu trữ năng lượng

6 phút

Tại thành phố Cần Thơ vừa diễn ra hội thảo 'Điện mặt trời thế hệ tiếp theo - Solar + Battery', do Công ty cổ phần Cơ điện Liên Thành Việt Nam (LITHACO) tổ chức, thu hút khoảng 300 đại biểu là đại diện hộ gia đình, doanh nghiệp, nhà máy, tổ chức tài chính và các chuyên gia trong lĩnh vực năng lượng.

Trí tuệ nhân tạo: RoboFest 2026 định hình tư duy công nghệ robot và AI cho trẻ em

7 phút

Theo phóng viên TTXVN tại Singapore, Ngày hội robot và trí tuệ nhân tạo (RoboFest) đầu tiên do Trung tâm Khoa học Singapore tổ chức từ ngày 9-12/4 đã thu hút đông đảo khách tham quan. Với chủ đề 'RoboFest 2026: Gặp gỡ tương lai, ngay hiện tại', ngày hội nhằm hướng tới việc khơi dậy sự tò mò và thúc đẩy trẻ em tiếp cận robot cũng như trí tuệ nhân tạo (AI) theo hướng chủ động, sáng tạo.

Ai Cập phóng thành công camera không gian lên ISS

8 phút

Chiều tối 11/4 theo giờ Việt Nam, Ai Cập đã phóng thành công camera không gian ClimCam lên Trạm Vũ trụ Quốc tế (ISS) trong khuôn khổ sứ mệnh Cygnus NG-24.

Hội thảo 'Hành trình khởi nghiệp và đổi mới sáng tạo từ trung học phổ thông'

22 phút

Chiều 11-4, tại Trường Phổ thông Dân tộc Nội trú Trung học phổ thông (THPT) tỉnh, Sở Giáo dục và Đào tạo tỉnh phối hợp với Học viện Nông nghiệp Việt Nam tổ chức Hội thảo 'Hành trình khởi nghiệp và đổi mới sáng tạo từ THPT'. Hội thảo được kết nối trực tuyến tới các trường THPT trên địa bàn tỉnh, thu hút đông đảo cán bộ, giáo viên và học sinh tham gia.

Bàn nâng hạ HyperWork Atlas Elite: Giải pháp All-in-one tối ưu cho không gian setup chuyên nghiệp

27 phút

HyperWork Atlas Elite tích hợp sẵn hệ thống quản lý cáp và động cơ kép mạnh mẽ, mang lại giải pháp toàn diện cho người dùng gaming và văn phòng cao cấp tại Việt Nam.

Đào tạo kỹ thuật trước 'cơn sóng' 4.0 - Doanh nghiệp là mắt xích không thể thiếu

28 phút

Mô hình kết nối doanh nghiệp được xem là giải pháp then chốt nhằm nâng cao chất lượng đào tạo đại học kỹ thuật, gắn lý thuyết với thực tiễn.

Mỏ Đại Hùng với kỳ tích doanh thu hàng tỷ USD

37 phút

Từ một mỏ dầu từng bị các nhà thầu quốc tế rời bỏ, Đại Hùng đã 'hồi sinh' với doanh thu lũy kế hết năm 2024 đạt hơn 4,1 tỷ USD, đây có thể coi là một kỳ tích trong ngành dầu khí Việt Nam.

Trí tuệ nhân tạo dần trở thành 'trung tâm' trong giáo dục số

1 giờ

Trí tuệ nhân tạo (AI) đang thay đổi cách dạy và học, đặt ra yêu cầu mới đối với nhà trường và giáo viên trong kỷ nguyên số. Không chỉ dừng ở thích ứng, giáo dục đang hướng tới làm chủ công nghệ, khai thác dữ liệu để nâng cao hiệu quả quản trị và cá nhân hóa trải nghiệm học tập.