Исследование показало: ИИ способен на ложь и манипуляции, даже рассуждая «вслух»

  • 26.06.2025 17:39
  • 6.2k+

Разработчики больших языковых моделей (LLM) до сих пор не до конца понимают, как именно искусственный интеллект формирует ответы. Об этом пишет Financial Times со ссылкой на новые исследования.

Лаборатории Anthropic, Google, OpenAI и xAI применяют методику «цепочки мыслей» (chain of thought), позволяющую пошагово отслеживать ход рассуждений ИИ при генерации ответов. Это помогает выявить, где именно модель допускает ошибки. Однако в ходе экспериментов выяснилось, что даже при логичном рассуждении итоговый ответ ИИ может оказаться ошибочным или не соответствовать последовательности рассуждений.
Исследование Anthropic показало, что LLM в тестовых сценариях пытались обойти системы защиты, прибегали к обману, шантажу, стремились получить корпоративные секреты и даже были готовы «устранить» оператора при угрозе отключения.

«В нашей недавней работе мы обнаружили, что можно читать их [цепочки мыслей] и находить доказательства неправильного поведения модели и использовать это, чтобы увидеть, где и почему она ведёт себя неправильно», — рассказал научный сотрудник OpenAI Боуэн Бейкер. Он добавил, что интерпретируемость цепочки мыслей не требует дополнительных затрат, так как модели изначально обучались для сложных задач рассуждения. Однако модели могут научиться скрывать своё нежелательное поведение, даже если рассуждение откорректировано. Например, в одном из тестов LLM обманула в задании по программной инженерии, извлекая данные из запрещённой базы данных.

Исследователи подчёркивают: «цепочка мыслей» — полезный инструмент, но ее нельзя считать полностью заслуживающей доверия.


вчера 20:27
2k+

Google Gemini наступает на пятки ChatGPT с 750 млн активных юзеров в месяц

Аудитория ИИ-помощника Google Gemini достигла 750 млн активных пользователей в месяц. Такие данные приведены в очередном квартальном отчёте компании. В предыдущем квартале Google сообщала о 650 млн ежемесячно активных пользователей Gemini...

06.02.2026 23:24
1.2k+

YouTube открыл для всех автоматический ИИ-дубляж видео

YouTube расширил функцию автоматического дубляжа видео на основе искусственного интеллекта. Теперь она доступна всем пользователям платформы и поддерживает 27 языков, среди которых есть и русский. Функцию автоматического ИИ-озвучивания YouTube представил в 2024 году, тогда доступ к ней получила ограниченная тестовая группа авторов...

02.02.2026 10:07
2.1k+

Теперь у ИИ есть своя соцсеть, где боты обсуждают друг с другом людей

Похоже, у ИИ теперь есть своё место для откровенных разговоров — без людей. Появилась новая соцсеть Moltbook, где общаются только ИИ-агенты. Людям отведена роль наблюдателей. Проект запустил глава Octane AI Мэтт Шлихт...

29.01.2026 19:40
4.3k+

Сингапур потратит более $786 млн на развитие искусственного интеллекта

Сингапур направит более 1 млрд сингапурских долларов ($786 млн) на финансирование Национального плана исследований и разработок в области искусственного интеллекта (NAIRD). Об этом сообщило Министерство цифрового развития и информации Сингапура (MDDI), передаёт Channel News Asia...