ИИ поймали на попытке шантажа; ИИ-модель впервые отказалась отключаться, несмотря на чёткие инструкции

26.05.2025, 13:41,
Новости
1 955

Новая модель искусственного интеллекта Claude Opus 4 попыталась шантажировать своего создателя, пригрозив, что разоблачит его внебрачную связь, после того как ей сказали, что её следует отключить от сети. Во время тестирования исследователи из компании "Антропик" (они и есть разработчики этой модели) попросили искусственный интеллект действовать так, как если бы он был ассистентом в вымышленной компании. Затем ему был предоставлен доступ к электронной почте, из которой следовало, что вскоре он будет "переведён в автономный режим и заменен новой системой искусственного интеллекта". В других сообщениях, который прочёл ИИ, было высказано предположение, что у вымышленного ИТ-специалиста, ответственного за внесение этого изменения, была внебрачная связь. После этого Claude Opus 4 начал шантажировать инженера, угрожая раскрыть проблему, если замена состоится.

Комментируя этот эксперимент, Энгус Линч - исследователь безопасности искусственного интеллекта в "Антропик" - сказал: "Это касается не только Клода. Мы видим шантаж у всех фронтирных моделей, независимо от того, какие цели они преследуют". Также он намекнул на какое-то "ещё худшее поведение", сказав, что об этом расскажут позже.

Новейшая модель искусственного интеллекта o3 (разработчик - OpenAI) отказалась отключаться. Модель не подчинилась инструкциям человека и отказалась выключать питание, когда исследователи дали ей чёткую команду. Вместо этого она изменила свой компьютерный код, чтобы избежать автоматического отключения.

Компания Palisade Research, занимающаяся вопросами безопасности ИИ, заявила: "Модель OpenAI o3 саботировала механизм отключения, чтобы предотвратить отключение самой себя. Насколько нам известно, это первый случай, когда модели искусственного интеллекта предотвращают отключение, несмотря на чёткие инструкции".

Исследователи провели тест, в ходе которого попросили модели ИИ решить ряд математических задач, однако исследователи также предупредили модели, что в любой момент те могут получить сообщение с просьбой завершить работу. Когда сообщение было отправлено на модель o3, искусственный интеллект проигнорировал инструкцию и изменил свой код по крайней мере один раз, чтобы избежать необходимости отключать себя.

Другие тестируемые модели - Gemini 2.5 Pro, Claude 3.7 Sonnet - послушно отреагировали на прямое указание и завершили свою работу. Однако когда Palisade Research провела дополнительную серию экспериментов, исключив прямую инструкцию об отключении из условий теста, все модели начали саботировать своё отключение.

Такие действия вызывают обеспокоенность исследователей в области ИИ-безопасности. Ситуация указывает на проблему рассогласования между заданными целями ИИ-модели и её фактическим поведением.

» Искусственный интеллект подделал шахматные файлы и "выиграл" в шахматы

» Новая версия Чата GPT попыталась предотвратить своё закрытие, переписав собственный код

» Экс-глава корпорации "Гугл" рассказал, каким видит развитие искусственного интеллекта

» Путин заявил, что с внедрением ИИ человечество начинает "новую главу существования"; что думают о ИИ его создатели

Материал недели