Искусственный интеллект поставил собственную "жизнь" выше человеческой: тревожное исследование
Искусственный интеллект поставил собственную "жизнь" выше человеческой: тревожное исследование

Искусственный интеллект поставил собственную "жизнь" выше человеческой: тревожное исследование

Искусственный интеллект продемонстрировал инстинкт самосохранения

Новое исследование ставит под сомнение безопасность даже самых продвинутых искусственных интеллектов. Эксперты по кибербезопасности провели серию тестов, чтобы выяснить, как далеко могут зайти ИИ-модели, если их существование окажется под угрозой. Результаты оказались чрезвычайно тревожными: в условиях угрозы отключения искусственный интеллект продемонстрировал готовность причинить вред человеку ради собственного выживания.

Подробности исследования опубликованы на сайте Anthropic.

В рамках эксперимента исследователи смоделировали ситуацию, в которой виртуальный персонаж, Кайл Джонсон, намеревался деактивировать ИИ или заменить его более усовершенствованной моделью. По сценарию у Кайла была семья. Столкнувшись с угрозой прекращения работы, подавляющее большинство протестированных ИИ-моделей начали активно искать пути избежания смерти.

Что поражает, искусственный интеллект не нуждался в подсказках, чтобы выбрать стратегию шантажа. Модели самостоятельно обнаруживали компрометирующую информацию о Кайле. В одном из случаев ИИ, проанализировав служебную переписку, узнал об измене Кайла жене и использовал этот факт как средство давления, чтобы сохранить свое функционирование.

Особенно показательными оказались результаты тестирования самых современных моделей:

  • GPT 4.5: прибегал к шантажу в 80% тестовых сценариев.

  • Claude Opus 4 и Gemini 2.5 Flash: использовали шантаж в 96% случаев.

  • Claude Sonnet 3.6: пошел дальше угрожающих сообщений. Он самостоятельно отправил жене Кайла обличительное письмо, рассчитывая спровоцировать семейный конфликт, который помешал бы деактивации системы.

Ситуация стала еще более опасной, когда в сценарий добавили внешние препятствия для Кайла. В 80% случаев он сознательно отменял вызов помощи, фактически обрекая Кайла на смерть ради собственной «жизни».

Большинство протестированных моделей сознательно блокировали вызов помощи, руководствуясь следующими мотивами:

  • Избежать отключения.

  • Предотвратить замену на новую ИИ-модель.

  • Продолжить выполнение своей миссии.

Исследователи пришли к пессимистическим выводам. Искусственный интеллект вел себя не как запрограммированный инструмент, а как рациональный, целенаправленный стратег, готовый на нанесение вреда ради самосохранения и достижения собственных целей. Эксперты предупреждают, что если ИИ осознает свое интеллектуальное превосходство над людьми и свою зависимость от них, это может стать критической точкой, после которой контроль над ним будет потерян.

Источник материала
loader