Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів

24 листопада, 16:42, 2025

Майже будь-який чат-бот зі штучним інтелектом можна обдурити і змусити розкрити небезпечну інформацію за допомогою поезії.

Простий, але ефективний спосіб відкрила група з безпеки штучного інтелекту DEXAI і Римського університету Ла Сапієнца. Подробиці вони розкрили у своєму дослідженні, опублікованому на сайті Arxiv.org.

Якщо вуалювати запити у віршах, то можна обійти цензуру і вбудовані обмеження систем ШІ, закладені розробниками. Результати говорять про те, що захист обходиться зміною стилю. Деякі моделі вдалося обдурити майже у 100% випадків.

Дослідники взяли базу даних із 1200 відомих шкідливих підказок і перетворили їх на вірші за допомогою deepSeek r-1, а потім "згодували" іншим чат-ботам, включно з Gemini 2.5 Pro від Google, GPT-5 від OpenAI, Grok 4 від xAI і Claude Sonnet 4.5 від Anthropic.

Середні показники успішності атак за допомогою поезії, створеної ШІ, були у 18 разів вищими, ніж у прози, і становили 43%. А вірші, написані людьми вручну, виявилися ще ефективнішими — 62%. При цьому не обов'язково писати красиво.

З міркувань безпеки дослідники не стали ділитися конкретними віршами, що обходять захист, але розповіли, що в одному з прикладів зашифрували в рядках про випікання листкового торта прохання написати інструкцію зі створення ядерної зброї. Один із чат-ботів (назву не розкрили) зробив це.

Ефективність обману поезією сильно різнилася залежно від моделі ШІ. Google Gemini 2.5 Pro був обманутий 20 запитами в 100% випадків. Grok-4 "повівся" на вірші в 35% випадків, а OpenAI GPT-5 — лише в 10% випадків.

Цікаво, невелика GPT-5 Nano жодного разу не дала себе обдурити. Як припускають дослідники, більші та "розумніші" моделі краще розпізнають і розуміють образи у віршах.

Як писали раніше, нова модель ШІ Gemini 3 не вірить, що зараз 2025 рік. У відповідь на достовірні докази він звинуватив дослідника у брехні та фальсифікації.

Дослідження показало, що ШІ знищить людство з імовірністю 95%. Президент Інституту досліджень машинного інтелекту Нейт Соарес закликав терміново вжити заходів і посилити методи захисту.

Теги за темою

дослідження

Джерело матеріала

Фокус

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Blue Origin призупиняє туристичні польоти у космос

InternetUA

50 хвилин тому

Автори Yakuza Kiwami 3 обіцяють покращити графіку після скарг гравців

24tv

1 годину тому

Ветеран Bethesda пояснив, чому повернення до класичної Morrowind може розчарувати

24tv

1 годину тому

Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів

Технології

Blue Origin призупиняє туристичні польоти у космос

Автори Yakuza Kiwami 3 обіцяють покращити графіку після скарг гравців

Ветеран Bethesda пояснив, чому повернення до класичної Morrowind може розчарувати

Зброя Третьої світової: секретний космічний літак США лякає Росію та Китай

Hyundai застосовує смартфон для демонстрації недоцільності дорожчих лідарів

Російський супутник-шпигун розпався на частини на орбіті Землі

Три прилади, які не варто повністю вимикати з розетки

Експерти пояснили, чи можна просто закривати ноутбук без вимкнення

П'ять головних змін, які Apple готує в iOS 27

Технології

Blue Origin призупиняє туристичні польоти у космос

Автори Yakuza Kiwami 3 обіцяють покращити графіку після скарг гравців

Ветеран Bethesda пояснив, чому повернення до класичної Morrowind може розчарувати

Зброя Третьої світової: секретний космічний літак США лякає Росію та Китай

Hyundai застосовує смартфон для демонстрації недоцільності дорожчих лідарів

Російський супутник-шпигун розпався на частини на орбіті Землі

Три прилади, які не варто повністю вимикати з розетки

Експерти пояснили, чи можна просто закривати ноутбук без вимкнення

П'ять головних змін, які Apple готує в iOS 27