Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів

24 листопада, 16:42, 2025

Майже будь-який чат-бот зі штучним інтелектом можна обдурити і змусити розкрити небезпечну інформацію за допомогою поезії.

Простий, але ефективний спосіб відкрила група з безпеки штучного інтелекту DEXAI і Римського університету Ла Сапієнца. Подробиці вони розкрили у своєму дослідженні, опублікованому на сайті Arxiv.org.

Якщо вуалювати запити у віршах, то можна обійти цензуру і вбудовані обмеження систем ШІ, закладені розробниками. Результати говорять про те, що захист обходиться зміною стилю. Деякі моделі вдалося обдурити майже у 100% випадків.

Дослідники взяли базу даних із 1200 відомих шкідливих підказок і перетворили їх на вірші за допомогою deepSeek r-1, а потім "згодували" іншим чат-ботам, включно з Gemini 2.5 Pro від Google, GPT-5 від OpenAI, Grok 4 від xAI і Claude Sonnet 4.5 від Anthropic.

Середні показники успішності атак за допомогою поезії, створеної ШІ, були у 18 разів вищими, ніж у прози, і становили 43%. А вірші, написані людьми вручну, виявилися ще ефективнішими — 62%. При цьому не обов'язково писати красиво.

З міркувань безпеки дослідники не стали ділитися конкретними віршами, що обходять захист, але розповіли, що в одному з прикладів зашифрували в рядках про випікання листкового торта прохання написати інструкцію зі створення ядерної зброї. Один із чат-ботів (назву не розкрили) зробив це.

Ефективність обману поезією сильно різнилася залежно від моделі ШІ. Google Gemini 2.5 Pro був обманутий 20 запитами в 100% випадків. Grok-4 "повівся" на вірші в 35% випадків, а OpenAI GPT-5 — лише в 10% випадків.

Цікаво, невелика GPT-5 Nano жодного разу не дала себе обдурити. Як припускають дослідники, більші та "розумніші" моделі краще розпізнають і розуміють образи у віршах.

Як писали раніше, нова модель ШІ Gemini 3 не вірить, що зараз 2025 рік. У відповідь на достовірні докази він звинуватив дослідника у брехні та фальсифікації.

Дослідження показало, що ШІ знищить людство з імовірністю 95%. Президент Інституту досліджень машинного інтелекту Нейт Соарес закликав терміново вжити заходів і посилити методи захисту.

Теги за темою

дослідження

Джерело матеріала

Фокус

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

NAVI здобули перемогу над росіянами на IEM Krakow 2026 та показали приклад s1mple

24tv

27 хвилин тому

У космосі росіяни втратили розвідувальний супутник

InternetUA

42 хвилини тому

Google Maps тепер дозволяє користуватися Gemini під час ходьби та їзди на велосипеді

InternetUA

48 хвилин тому

Це може знищити світ: як легко і просто обдурити ШІ за допомогою віршів

Технології

NAVI здобули перемогу над росіянами на IEM Krakow 2026 та показали приклад s1mple

У космосі росіяни втратили розвідувальний супутник

Google Maps тепер дозволяє користуватися Gemini під час ходьби та їзди на велосипеді

Додаток Sora від OpenAI зазнає труднощів після свого блискучого запуску

SpaceX та xAI Ілона Маска ведуть переговори про злиття

Які SMS і фото не можна зберігати в телефоні: шахраї полюють за цими даними

Прогноз магнітних бур на 1-2 лютого: якою буде сонячна активність

SpaceX хоче розмістити в космосі центри обробки даних для штучного інтелекту

Samsung готує проривний чип Exynos 2600 для Galaxy S26

Технології

NAVI здобули перемогу над росіянами на IEM Krakow 2026 та показали приклад s1mple

У космосі росіяни втратили розвідувальний супутник

Google Maps тепер дозволяє користуватися Gemini під час ходьби та їзди на велосипеді

Додаток Sora від OpenAI зазнає труднощів після свого блискучого запуску

SpaceX та xAI Ілона Маска ведуть переговори про злиття

Які SMS і фото не можна зберігати в телефоні: шахраї полюють за цими даними

Прогноз магнітних бур на 1-2 лютого: якою буде сонячна активність

SpaceX хоче розмістити в космосі центри обробки даних для штучного інтелекту

Samsung готує проривний чип Exynos 2600 для Galaxy S26