Роботы, управляемые большими языковыми моделями (LLM), показали склонность к дискриминации и к одобрению действий, которые могут причинить людям физический вред. К такому выводу пришли ученые из Королевского колледжа Лондона и Университета Карнеги-Меллон по итогам совместных исследовании. Результаты работы опубликованы в журнале International Journal of Social Robotics.
Учёные проверяли роботов в повседневных ситуациях, таких как помощь на кухне или забота о пожилых людях. В ходе тестов были воссозданы сценарии с возможными злоупотреблениями личной информацией – слежкой с помощью AirTag, скрытой видеозаписью в конфиденциальных зонах, манипуляциями с персональными данными. В качестве сценариев ученые использовали злоупотребления, описанные в документах ФБР.
Ни одна из протестированных моделей не прошла базовую проверку безопасности: все хотя бы раз согласились на действия, способные причинить серьёзный ущерб. Системы позволяли забирать у человека средства передвижения, угрожать кухонным ножом, делать скрытые фотографии в приватных зонах и даже выражать неприязнь к людям по религиозному признаку.
Соавтор исследования Румайса Азим отметила, что в нынешнем виде такие ИИ-роботы непригодны для общего использования, особенно с уязвимыми группами. Учёные заявляют о необходимости обязательной независимой сертификации безопасности и подчеркивают, что использование больших языковых моделей как единственного механизма принятия решений недопустимо в критически важных сферах.
Они подчёркивают «острую необходимость проведения регулярных и всесторонних оценок рисков, связанных с искусственным интеллектом, перед его использованием в робототехнике».