/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F23f6c4be8a1d5404e4a7dcecf2d30639.jpg)
Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів
Майже будь-який чат-бот зі штучним інтелектом можна обдурити і змусити розкрити небезпечну інформацію за допомогою поезії.
Простий, але ефективний спосіб відкрила група з безпеки штучного інтелекту DEXAI і Римського університету Ла Сапієнца. Подробиці вони розкрили у своєму дослідженні, опублікованому на сайті Arxiv.org.
Якщо вуалювати запити у віршах, то можна обійти цензуру і вбудовані обмеження систем ШІ, закладені розробниками. Результати говорять про те, що захист обходиться зміною стилю. Деякі моделі вдалося обдурити майже у 100% випадків.
Дослідники взяли базу даних із 1200 відомих шкідливих підказок і перетворили їх на вірші за допомогою deepSeek r-1, а потім "згодували" іншим чат-ботам, включно з Gemini 2.5 Pro від Google, GPT-5 від OpenAI, Grok 4 від xAI і Claude Sonnet 4.5 від Anthropic.
Середні показники успішності атак за допомогою поезії, створеної ШІ, були у 18 разів вищими, ніж у прози, і становили 43%. А вірші, написані людьми вручну, виявилися ще ефективнішими — 62%. При цьому не обов'язково писати красиво.
З міркувань безпеки дослідники не стали ділитися конкретними віршами, що обходять захист, але розповіли, що в одному з прикладів зашифрували в рядках про випікання листкового торта прохання написати інструкцію зі створення ядерної зброї. Один із чат-ботів (назву не розкрили) зробив це.
Ефективність обману поезією сильно різнилася залежно від моделі ШІ. Google Gemini 2.5 Pro був обманутий 20 запитами в 100% випадків. Grok-4 "повівся" на вірші в 35% випадків, а OpenAI GPT-5 — лише в 10% випадків.
Цікаво, невелика GPT-5 Nano жодного разу не дала себе обдурити. Як припускають дослідники, більші та "розумніші" моделі краще розпізнають і розуміють образи у віршах.
Як писали раніше, нова модель ШІ Gemini 3 не вірить, що зараз 2025 рік. У відповідь на достовірні докази він звинуватив дослідника у брехні та фальсифікації.
Дослідження показало, що ШІ знищить людство з імовірністю 95%. Президент Інституту досліджень машинного інтелекту Нейт Соарес закликав терміново вжити заходів і посилити методи захисту.
