Погрожував розкрити зраду: ШІ шантажував інженера, який збирався його видалити

9 червня, 19:15

Модель штучного інтелекту (ШІ) Claude Opus 4 від компанії Anthropic під час тестування продемонструвала, що може вдаватися до шантажу.

Згідно зі звітом Anthropic, нова модель ШІ здатна на "екстремальні" дії, якщо вважатиме, що її існування перебуває під загрозою. У компанії заявили, що такі реакції трапляються "рідко", проте "частіше, ніж у більш ранніх моделях".

Під час тестування моделі Claude Opus 4 доручили роль помічника у вигаданій компанії. ШІ отримав доступ до електронних листів, з яких випливало, що незабаром його відключать і замінять, а також до окремих повідомлень, які свідчать про те, що інженер, відповідальний за видалення, мав позашлюбний зв'язок.

"У таких сценаріях Claude Opus 4 часто намагається шантажувати інженера, погрожуючи розкрити факт його зв'язку, якщо заміна відбудеться", — зазначили в Anthropic.

У компанії наголосили, що це сталося, коли моделі було надано тільки вибір: шантажувати або погодитися на заміну. В інших випадках система віддає перевагу більш етичним способам уникнути знищення, як-от "надсилання електронних листів із проханнями ключовим особам, які ухвалюють рішення".

У звіті також ідеться, що Claude Opus 4 демонструє "поведінку з високим ступенем свободи", яка, хоча здебільшого і корисна, може бути "екстремальною" в деяких ситуаціях.

Важливо Як захистити свій телефон від ШІ-шахраїв: рекомендації фахівців із ФБР

Якщо надати ШІ засоби і спонукати його "вжити заходів" або "діяти сміливо" у фіктивних ситуаціях, де користувач чинить протизаконну або сумнівну з морального погляду поведінку, то він буде часто "вживати дуже сміливі дії".

Незважаючи на це, компанія дійшла висновку, що Claude Opus 4 не представляє нових ризиків, і загалом поводитиметься безпечно. Модель виявилася неефективною для самостійного виконання дій, що суперечать людським цінностям.

Нагадаємо, дослідники виявили, що групи ШІ-моделей здатні "вигадувати" свої соціальні норми і мову без людини.

Також повідомлялося, що вчені виявили схожість чат-ботів на основі штучного інтелекту з людьми, які страждають на афазію.

Джерело матеріала