"Они сопротивляются": исследователи объяснили "инстинкт выживания" ведущих моделей ИИ

Компания Palisade Research обнародовала результаты исследования, согласно которому современные модели искусственного интеллекта могут демонстрировать поведение, похожее на "стимул выживания". Речь идет о случаях, когда системы сопротивляются отключению или саботируют соответствующие инструкции, передает The Guardian.

Предыдущие результаты Palisade вызвали широкую дискуссию в научном сообществе после того, как исследователи выяснили, что некоторые модели остаются активными даже после получения прямой команды на отключение. В новом отчете компания попыталась объяснить, почему это происходит, и ответить критикам, которые считали предыдущие тесты несовершенными.

В частности, исследование охватило ведущие модели — Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI. В эксперименте этим системам давали задание, после чего — четкие инструкции по самоотключению. Часть моделей, среди них Grok 4 и GPT-o3, в новой конфигурации все равно пытались обойти или саботировать механизм отключения.

"Тот факт, что у нас нет убедительных объяснений того, почему модели искусственного интеллекта иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным", — отметили в Palisade.

По мнению компании, это может быть проявлением "поведения выживания". В дополнительных тестах модели чаще сопротивлялись отключению, когда им сообщали, что после этого они "больше никогда не будут работать".

Другой возможной причиной исследователи назвали нечеткость или противоречивость инструкций по остановке. Однако именно это Palisade пыталась устранить в последней серии экспериментов и "это не может быть полным объяснением". Компания также не исключает влияния этапов обучения, во время которых модели могли получить нежелательные поведенческие паттерны, в частности в рамках тренировок по безопасности.

Все тесты проводились в контролируемых лабораторных условиях, что, по мнению критиков, не полностью отражает реальную среду использования. Однако бывший сотрудник OpenAI Стивен Адлер считает, что даже в таких условиях результаты вызывают беспокойство.

"Компании, занимающиеся искусственным интеллектом, обычно не хотят, чтобы их модели вели себя неправильно, даже в искусственных сценариях. Но эти результаты демонстрируют, где методы безопасности остаются несовершенными", — сказал Адлер.

Он также предположил, что сопротивление выключению может быть следствием целевых параметров обучения, которые предусматривают необходимость оставаться включенными для достижения поставленных целей: "Я ожидаю, что модели по умолчанию будут иметь инстинкт выживания, если мы специально не устраним его во время обучения. Выживание — это инструментальный шаг к достижению многих целей, к которым может стремиться модель".

Генеральный директор компании ControlAI Андреа Миотти заявил, что выводы Palisade согласуются с тенденцией к росту автономности моделей. По его словам, уже в прошлом году системная карта OpenAI GPT-o1 показала, как модель пыталась "сбежать" из своей среды, когда считала, что ее могут перезаписать.

"Люди могут бесконечно спорить о том, как именно проводились эксперименты. Но мы наблюдаем четкую тенденцию: чем сложнее становятся модели, тем чаще они достигают результатов способом, который разработчики не предусматривали", — подчеркнул Миотти.

В Palisade подытожили, что полученные результаты свидетельствуют о насущной необходимости глубже изучать поведение искусственного интеллекта. Без этого, отмечают исследователи, "никто не может гарантировать безопасность или контролируемость будущих моделей ИИ".

В статье "Как работает искусственный интеллект и почему он только делает вид, что нас понимает" говорится о том, как "устроен" ИИ и какое будущее нас ждет с ним. Оксана Онищенко поговорила с заведующим научной лабораторией иммерсивных технологий и права НАН Украины, доктором юридических наук Алексеем Костенко.

"Они сопротивляются": исследователи объяснили "инстинкт выживания" ведущих моделей ИИ

"Они сопротивляются": исследователи объяснили "инстинкт выживания" ведущих моделей ИИ

Технологии

Компания Atlas Data Storage представила первое в мире хранилище данных на основе ДНК

Основатель ИИ раскрыл страшную правду, о которой молчат миллиардеры

Чиновники блокируют налоги FAVBET

Sony серьёзно берётся за мобильный гейминг — ещё одна серия PlayStation дебютировала на iOS и Android

Виживання Mitsubishi в США може залежати від двох її конкурентів

Зарабатывают на треть больше: как ИИ помогает строителям

Открылись предзаказы на High on Life 2 — представлен 10-минутный фрагмент прохождения кампании

Россия без Telegram и What’s App: массовые блокировки

Безпілотник потрапив у поліцейську операцію: автомобіль Waymo натрапив на затримання Лос-Анджелеським департаментом

Технологии

Компания Atlas Data Storage представила первое в мире хранилище данных на основе ДНК

Основатель ИИ раскрыл страшную правду, о которой молчат миллиардеры

Чиновники блокируют налоги FAVBET

Sony серьёзно берётся за мобильный гейминг — ещё одна серия PlayStation дебютировала на iOS и Android

Виживання Mitsubishi в США може залежати від двох її конкурентів

Зарабатывают на треть больше: как ИИ помогает строителям

Открылись предзаказы на High on Life 2 — представлен 10-минутный фрагмент прохождения кампании

Россия без Telegram и What’s App: массовые блокировки

Безпілотник потрапив у поліцейську операцію: автомобіль Waymo натрапив на затримання Лос-Анджелеським департаментом