Google DeepMind представила крупное обновление режима Gemini 3 Deep Think, ориентированного на научные и инженерные задачи. Ключевой показатель новой версии — достижение 84,6% на бенчмарке ARC-AGI-2, который проверяет способность решать новые абстрактные задачи без опоры на обучающую выборку.
В декабре предыдущая версия набирала в этом тесте 45,1%. Для сравнения, средний результат обычного человека составляет 60%.
Ближайшие конкуренты показали более низкие значения: Claude Opus 4.6 — 68,8%, GPT-5.2 Thinking — 52,9%. Помимо этого, обновлённая модель достигла уровня золотой медали на письменных этапах Международных олимпиад по физике и химии 2025 года. На платформе Codeforces Deep Think получила рейтинг Elo 3455 — заметно выше показателей Gemini 3 Pro и Claude Opus 4.6.
В академическом тесте Humanity’s Last Exam модель набрала 48,4% без использования инструментов, опередив конкурентов.
Google также привела примеры практического применения модели — от проверки научных статей до оптимизации синтеза полупроводниковых материалов в университетских лабораториях.
Deep Think уже доступна подписчикам Google AI Ultra и впервые открыта через Gemini API в рамках раннего доступа. Создатели ARC Prize подчёркивают, что высокий результат на бенчмарке отражает пока только прогресс в достижении AGI. Авторы уже готовят бенчмарк ARC-AGI-3 с более сложными задачами.