Исследование Apple и Университета Помпеу Фабра показало, что управляемость языковых и генеративных моделей ИИ сильно зависит от задачи, архитектуры модели и формулировки запроса. Авторы пришли к выводу, что предсказуемое поведение ИИ нельзя считать гарантированным.
В экспериментах участвовали модели SmolLM3-3B, Qwen3-4B и Gemma3-4B. Их проверяли на изменении формата и формальности текста, длине строк, а также на генерации четных и нечетных чисел. В простой для человека задаче с числами Gemma3-4B обычно справлялась, тогда как SmolLM3-3B часто допускала ошибки. Qwen3-4B показала полный контроль результата.
При изменении формальности текста Qwen3-4B и Gemma3-4B достигли полного соответствия запросу за пять диалоговых раундов, тогда как SmolLM3-3B осталась плохо управляемой. Исследователи отметили, что даже с обратной связью модели нередко начинают «перекручивать» результат.

Масштабирование Qwen от 0,6 до 14 млрд параметров показало: крупные модели управляются лучше, но заметный прирост снижается после уровня около 4 млрд параметров.
В задачах по генерации изображений по тексту (FLUX-s и SDXL) модели неточно следовали запросам по количеству объектов и насыщенности цвета. Корреляция насыщенности с запросом не превышала 0,1.
Авторы опубликовали инструментарий с открытым исходным кодом и подчеркнули, что управляемость ИИ необходимо проверять экспериментально.
Стоит отметить, что в работе рассматривались модели до 14 млрд параметров, поэтому модели-лидеры, такие как GPT‑5 или Claude 4.5, не тестировались. Авторы считают, что их подход подойдет для любого генератора ИИ, независимо от архитектуры.
