ИИ поймали на попытке шантажа; ИИ-модель впервые отказалась отключаться, несмотря на чёткие инструкции

Новая модель искусственного интеллекта Claude Opus 4 попыталась шантажировать своего создателя, пригрозив, что разоблачит его внебрачную связь, после того как ей сказали, что её следует отключить от сети. Во время тестирования исследователи из компании "Антропик" (они и есть разработчики этой модели) попросили искусственный интеллект действовать так, как если бы он был ассистентом в вымышленной компании. Затем ему был предоставлен доступ к электронной почте, из которой следовало, что вскоре он будет "переведён в автономный режим и заменен новой системой искусственного интеллекта". В других сообщениях, который прочёл ИИ, было высказано предположение, что у вымышленного ИТ-специалиста, ответственного за внесение этого изменения, была внебрачная связь. После этого Claude Opus 4 начал шантажировать инженера, угрожая раскрыть проблему, если замена состоится.
Комментируя этот эксперимент, Энгус Линч - исследователь безопасности искусственного интеллекта в "Антропик" - сказал: "Это касается не только Клода. Мы видим шантаж у всех фронтирных моделей, независимо от того, какие цели они преследуют". Также он намекнул на какое-то "ещё худшее поведение", сказав, что об этом расскажут позже. 
 
Новейшая модель искусственного интеллекта o3 (разработчик - OpenAI) отказалась отключаться. Модель не подчинилась инструкциям человека и отказалась выключать питание, когда исследователи дали ей чёткую команду. Вместо этого она изменила свой компьютерный код, чтобы избежать автоматического отключения. 
Компания Palisade Research, занимающаяся вопросами безопасности ИИ, заявила: "Модель OpenAI o3 саботировала механизм отключения, чтобы предотвратить отключение самой себя. Насколько нам известно, это первый случай, когда модели искусственного интеллекта предотвращают отключение, несмотря на чёткие инструкции".
Исследователи провели тест, в ходе которого попросили модели ИИ решить ряд математических задач, однако исследователи также предупредили модели, что в любой момент те могут получить сообщение с просьбой завершить работу. Когда сообщение было отправлено на модель o3, искусственный интеллект проигнорировал инструкцию и изменил свой код по крайней мере один раз, чтобы избежать необходимости отключать себя.
Другие тестируемые модели - Gemini 2.5 Pro, Claude 3.7 Sonnet - послушно отреагировали на прямое указание и завершили свою работу. Однако когда Palisade Research провела дополнительную серию экспериментов, исключив прямую инструкцию об отключении из условий теста, все модели начали саботировать своё отключение
Такие действия вызывают обеспокоенность исследователей в области ИИ-безопасности. Ситуация указывает на проблему рассогласования между заданными целями ИИ-модели и её фактическим поведением. 
 
 


Материал недели
Главные темы
Рейтинги
  • Самое читаемое
  • Все за сегодня
АПН в соцсетях
  • Вконтакте
  • Telegram