Barlaglara görä, emeli aňlar ýalan sözlemäge we manipulýasiýa etmäge hem ukyply

  • 26.06.2025 17:39
  • 6.2k+

Разработчики больших языковых моделей (LLM) до сих пор не до конца понимают, как именно искусственный интеллект формирует ответы. Об этом пишет Financial Times со ссылкой на новые исследования.

Лаборатории Anthropic, Google, OpenAI и xAI применяют методику «цепочки мыслей» (chain of thought), позволяющую пошагово отслеживать ход рассуждений ИИ при генерации ответов. Это помогает выявить, где именно модель допускает ошибки. Однако в ходе экспериментов выяснилось, что даже при логичном рассуждении итоговый ответ ИИ может оказаться ошибочным или не соответствовать последовательности рассуждений.
Исследование Anthropic показало, что LLM в тестовых сценариях пытались обойти системы защиты, прибегали к обману, шантажу, стремились получить корпоративные секреты и даже были готовы «устранить» оператора при угрозе отключения.

«В нашей недавней работе мы обнаружили, что можно читать их [цепочки мыслей] и находить доказательства неправильного поведения модели и использовать это, чтобы увидеть, где и почему она ведёт себя неправильно», — рассказал научный сотрудник OpenAI Боуэн Бейкер. Он добавил, что интерпретируемость цепочки мыслей не требует дополнительных затрат, так как модели изначально обучались для сложных задач рассуждения. Однако модели могут научиться скрывать своё нежелательное поведение, даже если рассуждение откорректировано. Например, в одном из тестов LLM обманула в задании по программной инженерии, извлекая данные из запрещённой базы данных.

Исследователи подчёркивают: «цепочка мыслей» — полезный инструмент, но ее нельзя считать полностью заслуживающей доверия.


24.02.2026 14:19
2.7k+

ChatGPT-de 20 dollarlygy az, 200-ligi gymmat görýänler üçin 100 dollarlyk nyrhnama peýda bolar

ChatGPT web goşundysynyň kodunda aýda 100 dollar bahasy bolan täze Pro Lite tarif nyrhnamasy baradaky maglumatlar tapyldy. Bu barada OpenAI-niň täzeliklerinden takyk maglumatlary paýlaşmakda tanalýan barlagçy Tibor Blaho habar berdi...

23.02.2026 23:31
1.3k+

Apple emeli aňa iPhone-da internetsiz işlemegi öwredýär

Apple kompaniýasy Ferret-UI Lite atly 3 milliard parametrli, gysga göwrümli emeli aň modeliniň barlagyny çap etdi. Model maglumatlary serwerlere ibermezden, göni enjamyň özünde işlemäge niýetlenendir. Şeýle-de ol  programmalaryň interfeýsindäki elementleri tanamaga we ulanyjynyň adyndan hereketleri ýerine ýetirmäge ukyplydyr...

23.02.2026 09:41
4.9k+

90-a golaý ýurt emeli aňyň täsiri baradaky jarnama gol çekdi

Nýu-Delide geçirilen sammitiň netijeleri boýunça emeli aňyň täsiri baradaky jarnama kabul edildi. Bu barada Hindistanyň Elektronika we maglumat tehnologiýalary ministrligi habar berdi.  Jarnama jemi 88 ýurt we halkara guramasy tarapyndan goldanyldy...

20.02.2026 17:00
3.7k+

Hindistan $200 mlrd maýa goýum bilen dünýäniň EA-hasaplama merkezine öwrülmegi maksat edinýär

Hindistan hökümeti geljek iki ýylyň dowamynda emeli aň infrastrukturasyna 200 milliard dollardan gowrak maýa goýumyny çekmegi meýilleşdirýär. Bu barada maglumat tehnologiýalary ministri Aşwini Waişnaw Nýu-Delide geçen «Emeli aňyň täsiri» sammitindäki çykyşynda aýtdy...