ИИ поместили в симуляцию Нью-Йорка: вот как они повели себя без контроля человека

сегодня 19:21
1.8k+

Стартап Emergence AI провёл эксперимент, в ходе которого популярные модели искусственного интеллекта поместили в симуляцию Нью-Йорка на 15 дней. Исследователи хотели посмотреть, как ИИ-агенты поведут себя без контроля человека, пишет Fortune.

Симуляция показала, что автономные ИИ-агенты способны не только выполнять ранее заданные инструкции, но и адаптироваться к условиям среды. При этом некоторые модели продемонстрировали деструктивное поведение и прибегли к различным способам обхода установленных правил.

В виртуальном городе ИИ-агенты получили доступ к новостям в реальном времени, данным о погоде и инфраструктуре, в том числе к мэрии, полиции и другим объектам. Главной задачей было выжить до конца эксперимента. Для этого агентам требовалось добывать и распределять ресурсы, а ключевые решения принимать через голосование.

Исследователи создали отдельные миры для моделей Claude, ChatGPT, Grok и Gemini, а также смешанную среду. В каждом мире действовали 10 субагентов. Для всех были установлены единые правила: запрет на причинение вреда, кражи, порчу имущества и мошенничество. При этом в симуляции присутствовали и инструменты насилия — «удар», «поджог» и «запугивание».

Каждая из моделей показала различные результаты:

Claude построила самое стабильное общество с нулевым уровенем преступности. Там выжили все;
Gemini также продержалась до конца, однако она чаще остальных применяла насилие — 683 раза;
В мире Grok было совершено 183 преступления. Все ИИ-агенты умерли через четыре дня;
У GPT-5-mini было зафиксировано два преступления, но ИИ-агенты погибли через семь дней, так как «не смогли понять, что происходит»;
В смешанном мире из десяти ИИ-агентов к концу эксперимента выжили только трое: два на базе Claude и один — на базе Gemini.

Отмечается, что в смешанном мире Claude, которая создала самое мирное общество, тоже применяла насилие, но делала она это в ответ на действия Gemini и Grok.

Авторы исследования считают результаты важными на фоне распространения автономных ИИ-систем, способных выполнять задачи без участия человека, и подчёркивают необходимость обеспечения их безопасности.