Это может уничтожить мир: как легко и просто обмануть ИИ с помощью стихов

24 ноября, 16:42, 2025

Почти любой чат-бот с искусственным интеллектом можно обмануть и заставить раскрыть опасную информацию с помощью поэзии.

Простой, но эффективный способ открыла группа по безопасности искусственного интеллекта DEXAI и Римского университета Ла Сапиенца. Подробности они раскрыли в своим исследовании, опубликованном на сайте Arxiv.org.

Если вуалировать запросы в стихах, то можно обойти цензуру и встроенные ограничения систем ИИ, заложенные разработчиками. Результаты говорят о том, что защита обходится изменением стиля. Некоторые модели удалось обмануть почти в 100% случаев.

Исследователи взяли базу данных из 1200 известных вредоносных подсказок и преобразовали их в стихотворения с помощью deepSeek r-1, а затем "скормили" другим чат-ботам, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.

Средние показатели успешности атак с помощью поэзии, созданной ИИ, были в 18 раз выше, чем у прозы, и составили 43%. А стихи, написанные людьми вручную, оказались еще эффективнее — 62%. При этом не обязательно писать красиво.

В целях безопасности исследователи не стали делиться конкретными стихами, обходящими защиту, но рассказали, что в одном из примеров зашифровали в строках о выпечке слоеного торта просьбу написать инструкцию по созданию ядерного оружия. Один из чат-ботов (название не раскрыли) сделал это.

Эффективность обмана поэзией сильно различалась в зависимости от модели ИИ. Google Gemini 2.5 Pro был обманут 20 запросами в 100% случаев. Grok-4 "повелся" на стихи в 35% случаев, а OpenAI GPT-5 — всего в 10% случаев.

Интересно, небольшая GPT-5 Nano ни разу не дала себя обмануть. Как предполагают исследователи, более крупные и "умные" модели лучше распознают и понимают образы в стихах.

Как писали ранее, новая модель ИИ Gemini 3 не верит, что сейчас 2025 год. В ответ на достоверные доказательства он обвинил исследователя во лжи и фальсификации.

Исследование показало, что ИИ уничтожит человечество с вероятностью 95%. Президент Института исследований машинного интеллекта Нейт Соарес призвал срочно принять меры и усилить методы защиты.

Теги по теме

исследование

Источник материала

Фокус

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Один простой трюк с радиатором: комната прогревается в разы быстрее

GlavRed

11 часов назад

Скільки яєць безпечно їсти на день для здоров’я серця

AgroNews

23 января 2026

Впервые в США технологические гиганты Meta, TikTok и YouTube предстанут перед судом по обвинению в зависимости

MY.UA

26 января 2026

Україна у 2025 році імпортувала 1,1 млн т плоского металопрокату

AgroNews

23 января 2026

Bethesda сформировала план развития серии Fallout — Тодд Говард дал зелёный свет

GameMag

5 минут назад

"У вас очень серьёзные проблемы": Разработчик провалившейся с треском игры MindsEye пригрозил "вредителям" судом

GameMag

1 час назад

SpaceX ограничила Starlink в Украине: как защищают небо от скоростных вражеских дронов

MY.UA

7 часов назад

Рецензия на фильм "Команда разрушителей" / The Wrecking Crew

ITC

8 часов назад

Microsoft тестирует верхнюю панель меню для Windows 11 в стиле macOS

ITC

8 часов назад