Исследователи из Кембриджского университета и Google DeepMind предложили первый научно обоснованный метод оценки формирования «личности» у больших языковых моделей (LLM).
В основу подхода легли классические психологические тесты, которые подтвердили, что ИИ способен не только имитировать человеческие черты, но и поддаваться точной настройке характера.
О новой разработке сообщила совместная группа ученых, адаптировавшая для нейросетей опросники Revised NEO Personality Inventory и Big Five Inventory. Методика опирается на «большую пятерку» качеств: открытость, добросовестность, экстраверсию, доброжелательность и невротизм. Тестирование показало, что крупные модели демонстрируют надежные и предсказуемые профили, в то время как результаты мелких моделей остаются непоследовательными.
С помощью структурированных запросов эксперты научились регулировать личность ИИ по девяти уровням для каждой черты. Например, чат-бота можно сделать более экстравертным или эмоционально нестабильным, что напрямую отражается на стиле выполнения задач, таких как написание текстов.
Авторы предупреждают о рисках манипуляций и призывают к обязательному аудиту передовых моделей с использованием их открытого кода перед выпуском систем в широкий доступ.
Исследование опубликовано в журнале Nature Machine Intelligence.