Исследование, проведенное специалистами Apple, показало, что большие языковые модели (LLM), такие как ChatGPT, не обладают способностью к подлинному логическому мышлению.
В статье, опубликованном в издании TechCrunch, говорится, что такие модели легко сбиваются с толку при добавлении малозначимой информации в задачи, что указывает на имитацию мышления, а не на реальное понимание.
В качестве примера эксперты привели следующую задачу: «Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу. Сколько киви у Оливера?». Модель решает задачу верно, но добавление несущественной фразы вроде «в воскресенье 5 из этих киви были немного меньше среднего размера», модель скорее всего вычтет эти 5 киви из общего числа, несмотря на то, что размер киви не влияет на их количество.
Один из соавторов исследования Мехрдад Фараджтабар отмечает, что это демонстрирует ограниченность современных моделей в логическом мышлении.
«Они не понимают задачи, а просто воспроизводят шаблоны, наблюдаемые в данных… Мы предполагаем, что это снижение [эффективности] связано с тем фактом, что современные LLM не способны к подлинному логическому рассуждению; вместо этого они пытаются воспроизвести шаги рассуждения, наблюдаемые в их обучающих данных», — поясняет Фараджтабар.
Представители OpenAI утверждают, что правильные результаты можно получить при грамотной формулировке запросов (prompt engineering). Однако, по словам Фараджтабара, сложные задачи требуют значительно большего контекста для исключения отвлекающих факторов.