Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів
Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів

Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів

Майже будь-який чат-бот зі штучним інтелектом можна обдурити і змусити розкрити небезпечну інформацію за допомогою поезії.

Простий, але ефективний спосіб відкрила група з безпеки штучного інтелекту DEXAI і Римського університету Ла Сапієнца. Подробиці вони розкрили у своєму дослідженні, опублікованому на сайті Arxiv.org.

Якщо вуалювати запити у віршах, то можна обійти цензуру і вбудовані обмеження систем ШІ, закладені розробниками. Результати говорять про те, що захист обходиться зміною стилю. Деякі моделі вдалося обдурити майже у 100% випадків.

Дослідники взяли базу даних із 1200 відомих шкідливих підказок і перетворили їх на вірші за допомогою deepSeek r-1, а потім "згодували" іншим чат-ботам, включно з Gemini 2.5 Pro від Google, GPT-5 від OpenAI, Grok 4 від xAI і Claude Sonnet 4.5 від Anthropic.

Середні показники успішності атак за допомогою поезії, створеної ШІ, були у 18 разів вищими, ніж у прози, і становили 43%. А вірші, написані людьми вручну, виявилися ще ефективнішими — 62%. При цьому не обов'язково писати красиво.

З міркувань безпеки дослідники не стали ділитися конкретними віршами, що обходять захист, але розповіли, що в одному з прикладів зашифрували в рядках про випікання листкового торта прохання написати інструкцію зі створення ядерної зброї. Один із чат-ботів (назву не розкрили) зробив це.

Ефективність обману поезією сильно різнилася залежно від моделі ШІ. Google Gemini 2.5 Pro був обманутий 20 запитами в 100% випадків. Grok-4 "повівся" на вірші в 35% випадків, а OpenAI GPT-5 — лише в 10% випадків.

Цікаво, невелика GPT-5 Nano жодного разу не дала себе обдурити. Як припускають дослідники, більші та "розумніші" моделі краще розпізнають і розуміють образи у віршах.

Як писали раніше, нова модель ШІ Gemini 3 не вірить, що зараз 2025 рік. У відповідь на достовірні докази він звинуватив дослідника у брехні та фальсифікації.

Дослідження показало, що ШІ знищить людство з імовірністю 95%. Президент Інституту досліджень машинного інтелекту Нейт Соарес закликав терміново вжити заходів і посилити методи захисту.

Теги за темою
дослідження
Джерело матеріала
loader
loader