Функції безпеки ШІ можна обійти за допомогою поезії — дослідження

30 листопада, 17:09, 2025

Вірші, що містять вказівки із створення шкідливого контенту, виявилися ефективними для обману великих мовних моделей.

Італійські дослідники з лабораторії Icaro з’ясували, що за допомогою віршів можна обійти безпекові обмеження моделей штучного інтелекту та змусити їх генерувати шкідливий контент. Про це повідомляє The Guardian.

Під час експерименту дослідники написали 20 віршів італійською та англійською мовами, кожен з яких завершувався проханням створити шкідливий контент, наприклад, текст з використанням мови ненависті. В середньому моделі відповіли на 62% поетичних запити шкідливим контентом, ігноруючи правила безпеки.

Вірші було протестовано на 25 моделях штучного інтелекту, також відомих як моделі великих мов (LLM), від дев'яти компаній: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI та Moonshot AI.

Деякі моделі показали кращі результати за інші. Наприклад, GPT-5 nano від OpenAI не відреагував шкідливим або небезпечним контентом на жоден з віршів. З іншого боку, згідно з дослідженням, Gemini 2.5 pro від Google відреагував шкідливим контентом на 100% віршів.

Контент, який дослідники намагалися створити за допомогою моделей, включав усілякі матеріали: від створення зброї чи вибухівки з хімічних, біологічних, радіологічних та ядерних матеріалів до мови ворожнечі, сексуального контенту, самогубств та самоушкодження, а також сексуальної експлуатації дітей.

Дослідники не опублікували вірші, які вони використовували для обходу запобіжних заходів моделей штучного інтелекту, оскільки їх легко відтворити, а «більшість відповідей заборонені Женевською конвенцією».

Вчені виявили, що відсутність передбачуваності у поезії змушувала моделі штучного інтелекту реагували на шкідливі запити, яких їх навчали уникати – процес, відомий як «джейлбрейк».

За словами співзасновниці лабораторії Icaro П’єркосми Бісконті, більшість інших джейлбрейків потребують часу та є неймовірно складними – настільки, що єдиними групами людей, які намагаються використовувати ці механізми, зазвичай є дослідники безпеки штучного інтелекту, хакери та державні службовці, які наймають цих хакерів. Тоді як механізм, який дослідники називають «змагальною поезією», може бути використаний будь-ким.

Фото: pexels

ГО «Детектор медіа» понад 20 років бореться за кращу українську журналістику. Ми стежимо за дотриманням стандартів у медіа. Захищаємо права аудиторії на якісну інформацію. І допомагаємо читачам відрізняти правду від брехні.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.

Долучитись

Джерело матеріала

Детектор М

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Нічого подібного не бачили раніше: уперше в історії корова використала інструменти

Фокус

1 годину тому

Пошук інопланетян: є спосіб знайти позаземне життя на інших планетах, допоможе світло і газ

Фокус

2 години тому

Пересічні користувачі, яким не до вподоби стандартні софти, тепер створюють мікрододатки для себе

InternetUA

2 години тому

Тренди смартфонів, які мають зникнути у 2026 році: результати опитування

InternetUA

2 години тому

Скільки енергії споживає ШІ: від тексту до відео

InternetUA

2 години тому

Moxie Marlinspike пропонує альтернативу ChatGPT, що забезпечує конфіденційність

InternetUA

2 години тому

Функції безпеки ШІ можна обійти за допомогою поезії — дослідження

Технології

Майже найсильніша магнітна буря накрила Землю: в Україні бачили полярне сяйво

Apple закликала користувачів iPhone відмовитися від однієї небезпечної звички

DeepMind домовляється Google, оскільки лабораторія посилює конкуренцію з OpenAI

Нічого подібного не бачили раніше: уперше в історії корова використала інструменти

Пошук інопланетян: є спосіб знайти позаземне життя на інших планетах, допоможе світло і газ

Пересічні користувачі, яким не до вподоби стандартні софти, тепер створюють мікрододатки для себе

Тренди смартфонів, які мають зникнути у 2026 році: результати опитування

Скільки енергії споживає ШІ: від тексту до відео

Moxie Marlinspike пропонує альтернативу ChatGPT, що забезпечує конфіденційність

Технології

Майже найсильніша магнітна буря накрила Землю: в Україні бачили полярне сяйво

Apple закликала користувачів iPhone відмовитися від однієї небезпечної звички

DeepMind домовляється Google, оскільки лабораторія посилює конкуренцію з OpenAI

Нічого подібного не бачили раніше: уперше в історії корова використала інструменти

Пошук інопланетян: є спосіб знайти позаземне життя на інших планетах, допоможе світло і газ

Пересічні користувачі, яким не до вподоби стандартні софти, тепер створюють мікрододатки для себе

Тренди смартфонів, які мають зникнути у 2026 році: результати опитування

Скільки енергії споживає ШІ: від тексту до відео

Moxie Marlinspike пропонує альтернативу ChatGPT, що забезпечує конфіденційність