Исследование показало: ИИ способен на ложь и манипуляции, даже рассуждая «вслух»

  • 26.06.2025 17:39
  • 6.2k+

Разработчики больших языковых моделей (LLM) до сих пор не до конца понимают, как именно искусственный интеллект формирует ответы. Об этом пишет Financial Times со ссылкой на новые исследования.

Лаборатории Anthropic, Google, OpenAI и xAI применяют методику «цепочки мыслей» (chain of thought), позволяющую пошагово отслеживать ход рассуждений ИИ при генерации ответов. Это помогает выявить, где именно модель допускает ошибки. Однако в ходе экспериментов выяснилось, что даже при логичном рассуждении итоговый ответ ИИ может оказаться ошибочным или не соответствовать последовательности рассуждений.
Исследование Anthropic показало, что LLM в тестовых сценариях пытались обойти системы защиты, прибегали к обману, шантажу, стремились получить корпоративные секреты и даже были готовы «устранить» оператора при угрозе отключения.

«В нашей недавней работе мы обнаружили, что можно читать их [цепочки мыслей] и находить доказательства неправильного поведения модели и использовать это, чтобы увидеть, где и почему она ведёт себя неправильно», — рассказал научный сотрудник OpenAI Боуэн Бейкер. Он добавил, что интерпретируемость цепочки мыслей не требует дополнительных затрат, так как модели изначально обучались для сложных задач рассуждения. Однако модели могут научиться скрывать своё нежелательное поведение, даже если рассуждение откорректировано. Например, в одном из тестов LLM обманула в задании по программной инженерии, извлекая данные из запрещённой базы данных.

Исследователи подчёркивают: «цепочка мыслей» — полезный инструмент, но ее нельзя считать полностью заслуживающей доверия.


21.06.2026 16:10
3.7k+

Ответ США и Китаю: ЕС оплатит создание суверенной языковой модели ИИ на 400 млрд параметров

Еврокомиссия подвела итоги конкурса Frontier AI Grand Challenge, запущенного в феврале. Победителем стал консорциум Europa, возглавляемый итальянской IT-компанией Domyn. Цель данного проекта — обучение......

19.06.2026 18:36
1k+

Правительство США запретило работу двух ИИ-моделей Anthropic

Компания Anthropic сообщила о прекращении доступа к моделям Fable 5 и Mythos 5 после получения директивы от властей США, ограничивающей использование этих систем иностранными гражданами....

18.06.2026 22:43
1.3k+

DeepSeek стал самым дорогим ИИ-стартапом Китая

Китайский стартап DeepSeek завершил первый раунд финансирования, привлёк более 50 млрд юаней (около 7,4 млрд долларов) и получил оценку свыше 50 млрд долларов....

15.06.2026 15:53
1.2k+

Британцы создадут «атлас» триллиона генов, чтобы помочь ИИ создавать лекарства

Британская компания Basecamp Research объявила о запуске проекта Trillion Gene Atlas, который предполагает сбор и анализ генетических данных более чем от 100 миллионов ранее не изученных видов живых организмов....