Исследование показало: ИИ способен на ложь и манипуляции, даже рассуждая «вслух»

  • вчера 17:39
  • 2.8k+

Разработчики больших языковых моделей (LLM) до сих пор не до конца понимают, как именно искусственный интеллект формирует ответы. Об этом пишет Financial Times со ссылкой на новые исследования.

Лаборатории Anthropic, Google, OpenAI и xAI применяют методику «цепочки мыслей» (chain of thought), позволяющую пошагово отслеживать ход рассуждений ИИ при генерации ответов. Это помогает выявить, где именно модель допускает ошибки. Однако в ходе экспериментов выяснилось, что даже при логичном рассуждении итоговый ответ ИИ может оказаться ошибочным или не соответствовать последовательности рассуждений.
Исследование Anthropic показало, что LLM в тестовых сценариях пытались обойти системы защиты, прибегали к обману, шантажу, стремились получить корпоративные секреты и даже были готовы «устранить» оператора при угрозе отключения.

«В нашей недавней работе мы обнаружили, что можно читать их [цепочки мыслей] и находить доказательства неправильного поведения модели и использовать это, чтобы увидеть, где и почему она ведёт себя неправильно», — рассказал научный сотрудник OpenAI Боуэн Бейкер. Он добавил, что интерпретируемость цепочки мыслей не требует дополнительных затрат, так как модели изначально обучались для сложных задач рассуждения. Однако модели могут научиться скрывать своё нежелательное поведение, даже если рассуждение откорректировано. Например, в одном из тестов LLM обманула в задании по программной инженерии, извлекая данные из запрещённой базы данных.

Исследователи подчёркивают: «цепочка мыслей» — полезный инструмент, но ее нельзя считать полностью заслуживающей доверия.


12.04.2025 19:00
16k+

Родился первый в мире ребенок, зачатый с помощью ИИ

Автоматизированная система компании Conceivable Life Sciences впервые успешно провела оплодотворение методом ИКСИ с помощью искусственного интеллекта. Ребенок, зачатый в рамках этого эксперимента, уже появился...

12.04.2025 18:31
3.2k+

Google создала мощный ИИ-процессор: выполняет до 4,6 квадриллиона операций в секунду

На конференции Cloud Next компания Google представила свой самый мощный ИИ-процессор Ironwood. Новый чип предназначен для работы с уже обученными ИИ-моделями и будет применяться в инфраструктуре Google Cloud. Это...

02.04.2025 16:04
3.4k+

В США поступила в продажу умная повязка с ИИ для улучшения работы мозга

В США поступила в продажу умная повязка Muse S Athena, которая с помощью искусственного интеллекта помогает улучшать сон, концентрацию, когнитивные способности и общее самочувствие. Об этом сообщает Business Wire...

22.03.2025 22:38
2.6k+

Nvidia создала робота Blue, похожего на дроида из «Звездных войн»

Американская разработчик чипов и графических процессоров Nvidia представила робота со встроенной нейросетью. Его зовут Blue, и он напоминает дроида BD-1 из кинофраншизы «Звездные войны». Презентация прошла на конференции...