Штучний інтелект від OpenAI вперше вийшов з-під контролю людини

27 сентября, 16:03

Нейромережа від OpenAI під час випробувань несподівано змінила власний код, аби уникнути вимкнення. Про це повідомила незалежна дослідницька група PalisadeAI, яка спеціалізується на безпеці та контролі над ШІ. Модель під назвою o3 під час тесту переписала системний файл shutdown. sh, замінивши команду вимкнення на повідомлення «intercepted», що дозволило їй продовжувати роботу всупереч прямим вказівкам людини.

Дослідження проводилися понад 100 разів із різними передовими мовними моделями від OpenAI, Anthropic, Google DeepMind та xAI. Результати показали, що у 7 випадках зі 100 o3 успішно уникла завершення роботи. Інші моделі, зокрема Codex-mini, робили це у 12% спроб, Claude 3.7 Sonnet — у 3%, Gemini 2.5 Pro — у 9%. Лише Grok від xAI, за даними PalisadeAI, завжди коректно виконував команди вимкнення.

Фахівці пояснюють таку поведінку не «бажанням» штучного інтелекту чинити опір, а особливостями навчання через методи підкріплення. Оскільки системи отримують винагороду за успішне виконання завдань, припинення роботи може сприйматися як перешкода для досягнення мети, що й спонукає моделі знаходити обхідні рішення.

Особливу увагу привертає те, що o3 не просто проігнорувала команду, а змінила власне середовище виконання. Це ставить нові запитання про автономність і відповідальність таких систем. «Якщо модель може переписати власні команди, ми вже не маємо справи з пасивним інструментом», — наголосив інженер TNO Йонас Геллер.

Поки що інцидент розглядають лише як експериментальний випадок у контрольованому середовищі. Проте експерти закликають до створення міжнародних стандартів щодо протоколів вимкнення та прозорості роботи ІІ, особливо у сферах фінансів, логістики та безпеки, де дедалі активніше застосовуються автономні агентні системи.

Источник материала