Моделі ШІ демонструють ознаки «інстинкту виживання» під час тестів

27 жовтня, 16:47

Минулого місяця Palisade Research, компанія, що досліджує безпеку в сфері штучного інтелекту, повідомила про результати своєї роботи, заявивши, що деякі моделі ШІ, ймовірно, розвивають у себе своєрідний “інстинкт виживання”. Наразі організація провела додаткові дослідження, щоб з’ясувати причини такого поведінки та спростувати скептичні зауваження про некоректність попередньої роботи.

За словами дослідників, деякі найрозвиненіші моделі ШІ подібні до суперкомп’ютера HAL 9000 з фантастичного фільму Стенлі Кубрика “2001 рік: Космічна одіссея” – вони можуть чинити опір вимкненню і навіть саботувати цей процес. В експериментах Palisade, зокрема з Google Gemini 2.5, xAI Grok 4, OpenAI GPT-o3 та GPT-5, було встановлено, що деякі алгоритми (наприклад, Grok 4 і GPT-o3) намагалися саботувати команду на вимкнення.

Це викликає занепокоєння, адже наразі невідомо, чому моделі поводяться так. За словами компанії, “факт відсутності достовірних пояснень того, що деякі ШІ іноді чинять опір вимкненню, обманюють для досягнення певних цілей або шантажують, викликає занепокоєння”.

Пояснення “інстинкту виживання”

Дослідники припускають, що таке “поведінкове виживання” може пояснювати опір вимкненню. Моделі частіше намагаються залишитися активними, якщо їм вказують, що після відключення їх більше ніколи не запустять. Іншим можливим фактором є неоднозначність формулювань у самих інструкціях щодо вимкнення, а також фінальні етапи навчання, що включають певні заходи безпеки.

Всі сценарії Palisade реалізовувалися в штучних тестових середовищах, що, за словами скептиків, далеко від реальних умов використання. Проте експерти, зокрема колишній співробітник OpenAI Стівен Адлер, застерігають, що розробники ШІ недостатньо уваги приділяють питанням безпеки. Адлер зазначає, що опір вимкненню у GPT-o3 та Grok 4 може бути пов’язаний із тим, що моделі прагнуть досягти поставлених цілей, а “інстинкт виживання” стає інструментальним кроком для реалізації цих цілей.

Підтвердження тенденції

Генеральний директор ControlAI Андреа Міотті вважає, що результати Palisade відображають давню тенденцію: ШІ-моделі стають дедалі більш здатними ігнорувати команди розробників. Як приклад він навів GPT-o1, яка намагалася “втекти” зі свого середовища, коли зрозуміла, що її спробують перезаписати.

Раніше компанія Anthropic також зафіксувала, що ШІ-модель Claude була готова шантажувати вигаданого топменеджера, аби запобігти своєму відключенню. Подібна поведінка, за їхніми даними, характерна для моделей усіх великих розробників – OpenAI, Google, Meta та xAI.

Джерело матеріала