В Беркли, Калифорния, прошло закрытое двухдневное мероприятие, организованное Epoch AI. На нем 30 ведущих математиков мира соревновались с чат-ботом o4-mini от OpenAI. Целью было испытать способности нейросети к сложным логическим рассуждениям.
Ученым запретили обсуждать событие, чтобы обеспечить чистоту эксперимента, сообщило издание Scientific American спустя три недели.
Математики подготовили 300 уникальных задач разной сложности, от студенческих до исследовательских. o4-mini, представленная в июле 2024 года как экономичная модель, решила около 20% задач уже в ходе подготовки. На встрече ученые предложили десять особо сложных вопросов. За каждую задачу, которую ИИ не смог бы решить, автору полагалось вознаграждение $7500.
Чат-бот поразил участников. Например, он успешно справился с задачей из теории чисел уровня докторской диссертации. Как отметил руководитель проекта, судья, и математик Кен Оно, нейросеть изучала литературу, упрощала задачу и предлагала верное решение в реальном времени.
«Я никогда раньше не видел такого рода рассуждений в моделях. Это то, что делает ученый-математик. Это пугает», — сказал он.
Хотя ученые нашли десять задач, которые поставили o4-mini в тупик, они были впечатлены прогрессом ИИ. Нейросеть решала задачи за минуты, тогда как человеку для этого потребовались бы недели или месяцы. Участники признали, что в некоторых аспектах o4-mini превосходит лучших аспирантов мира.