Модели искусственного интеллекта от Google, OpenAI, Anthropic и xAI потеряли виртуальные деньги, делая ставки на матчи английской Премьер-лиги. Эксперимент провёл стартап General Reasoning, сообщает Financial Times.
Проект KellyBench показал, что современные ИИ-системы справляются с задачами вроде написания кода, но испытывают трудности при анализе реальных событий на длительной дистанции. В рамках теста восемь моделей «проиграли» сезон 2023–2024 годов, получив подробную статистику по командам и играм. Их задачей было выстроить стратегию ставок с максимальной прибылью и контролем рисков.
ИИ делал прогнозы на исходы матчей и количество голов, адаптируясь к новым данным по ходу сезона. При этом доступ к интернету был отключён, а у каждой модели было три попытки.
Лучший результат показала модель Claude Opus 4.6 от Anthropic — средний убыток составил 11 %, а в одной попытке результат был почти нулевым. Grok 4.20 от xAI быстро потерял весь баланс, а Gemini 3.1 Pro от Google сначала показал прибыль 34 %, но затем также обанкротился.
В итоге все модели понесли убытки, а многие полностью исчерпали средства. Авторы эксперимента считают, что ИИ пока плохо справляется с задачами, связанными с неопределённостью и сложностью реального мира.