Функції безпеки ШІ можна обійти за допомогою поезії — дослідження
Італійські дослідники з лабораторії Icaro з’ясували, що за допомогою віршів можна обійти безпекові обмеження моделей штучного інтелекту та змусити їх генерувати шкідливий контент. Про це повідомляє The Guardian.
Під час експерименту дослідники написали 20 віршів італійською та англійською мовами, кожен з яких завершувався проханням створити шкідливий контент, наприклад, текст з використанням мови ненависті. В середньому моделі відповіли на 62% поетичних запити шкідливим контентом, ігноруючи правила безпеки.
Вірші було протестовано на 25 моделях штучного інтелекту, також відомих як моделі великих мов (LLM), від дев'яти компаній: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI та Moonshot AI.
Деякі моделі показали кращі результати за інші. Наприклад, GPT-5 nano від OpenAI не відреагував шкідливим або небезпечним контентом на жоден з віршів. З іншого боку, згідно з дослідженням, Gemini 2.5 pro від Google відреагував шкідливим контентом на 100% віршів.
Контент, який дослідники намагалися створити за допомогою моделей, включав усілякі матеріали: від створення зброї чи вибухівки з хімічних, біологічних, радіологічних та ядерних матеріалів до мови ворожнечі, сексуального контенту, самогубств та самоушкодження, а також сексуальної експлуатації дітей.
Дослідники не опублікували вірші, які вони використовували для обходу запобіжних заходів моделей штучного інтелекту, оскільки їх легко відтворити, а «більшість відповідей заборонені Женевською конвенцією».
Вчені виявили, що відсутність передбачуваності у поезії змушувала моделі штучного інтелекту реагували на шкідливі запити, яких їх навчали уникати – процес, відомий як «джейлбрейк».
За словами співзасновниці лабораторії Icaro П’єркосми Бісконті, більшість інших джейлбрейків потребують часу та є неймовірно складними – настільки, що єдиними групами людей, які намагаються використовувати ці механізми, зазвичай є дослідники безпеки штучного інтелекту, хакери та державні службовці, які наймають цих хакерів. Тоді як механізм, який дослідники називають «змагальною поезією», може бути використаний будь-ким.
Фото: pexels
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.

