Компания Palisade Research обнародовала результаты исследования, согласно которому современные модели искусственного интеллекта могут демонстрировать поведение, похожее на "стимул выживания". Речь идет о случаях, когда системы сопротивляются отключению или саботируют соответствующие инструкции, передает The Guardian.
Предыдущие результаты Palisade вызвали широкую дискуссию в научном сообществе после того, как исследователи выяснили, что некоторые модели остаются активными даже после получения прямой команды на отключение. В новом отчете компания попыталась объяснить, почему это происходит, и ответить критикам, которые считали предыдущие тесты несовершенными.
В частности, исследование охватило ведущие модели — Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI. В эксперименте этим системам давали задание, после чего — четкие инструкции по самоотключению. Часть моделей, среди них Grok 4 и GPT-o3, в новой конфигурации все равно пытались обойти или саботировать механизм отключения.
"Тот факт, что у нас нет убедительных объяснений того, почему модели искусственного интеллекта иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным", — отметили в Palisade.
По мнению компании, это может быть проявлением "поведения выживания". В дополнительных тестах модели чаще сопротивлялись отключению, когда им сообщали, что после этого они "больше никогда не будут работать".
Другой возможной причиной исследователи назвали нечеткость или противоречивость инструкций по остановке. Однако именно это Palisade пыталась устранить в последней серии экспериментов и "это не может быть полным объяснением". Компания также не исключает влияния этапов обучения, во время которых модели могли получить нежелательные поведенческие паттерны, в частности в рамках тренировок по безопасности.
Все тесты проводились в контролируемых лабораторных условиях, что, по мнению критиков, не полностью отражает реальную среду использования. Однако бывший сотрудник OpenAI Стивен Адлер считает, что даже в таких условиях результаты вызывают беспокойство.
"Компании, занимающиеся искусственным интеллектом, обычно не хотят, чтобы их модели вели себя неправильно, даже в искусственных сценариях. Но эти результаты демонстрируют, где методы безопасности остаются несовершенными", — сказал Адлер.
Он также предположил, что сопротивление выключению может быть следствием целевых параметров обучения, которые предусматривают необходимость оставаться включенными для достижения поставленных целей: "Я ожидаю, что модели по умолчанию будут иметь инстинкт выживания, если мы специально не устраним его во время обучения. Выживание — это инструментальный шаг к достижению многих целей, к которым может стремиться модель".
Генеральный директор компании ControlAI Андреа Миотти заявил, что выводы Palisade согласуются с тенденцией к росту автономности моделей. По его словам, уже в прошлом году системная карта OpenAI GPT-o1 показала, как модель пыталась "сбежать" из своей среды, когда считала, что ее могут перезаписать.
"Люди могут бесконечно спорить о том, как именно проводились эксперименты. Но мы наблюдаем четкую тенденцию: чем сложнее становятся модели, тем чаще они достигают результатов способом, который разработчики не предусматривали", — подчеркнул Миотти.
В Palisade подытожили, что полученные результаты свидетельствуют о насущной необходимости глубже изучать поведение искусственного интеллекта. Без этого, отмечают исследователи, "никто не может гарантировать безопасность или контролируемость будущих моделей ИИ".
В статье "Как работает искусственный интеллект и почему он только делает вид, что нас понимает" говорится о том, как "устроен" ИИ и какое будущее нас ждет с ним. Оксана Онищенко поговорила с заведующим научной лабораторией иммерсивных технологий и права НАН Украины, доктором юридических наук Алексеем Костенко.
