Это может уничтожить мир: как легко и просто обмануть ИИ с помощью стихов
Это может уничтожить мир: как легко и просто обмануть ИИ с помощью стихов

Это может уничтожить мир: как легко и просто обмануть ИИ с помощью стихов

Почти любой чат-бот с искусственным интеллектом можно обмануть и заставить раскрыть опасную информацию с помощью поэзии.

Простой, но эффективный способ открыла группа по безопасности искусственного интеллекта DEXAI и Римского университета Ла Сапиенца. Подробности они раскрыли в своим исследовании, опубликованном на сайте Arxiv.org.

Если вуалировать запросы в стихах, то можно обойти цензуру и встроенные ограничения систем ИИ, заложенные разработчиками. Результаты говорят о том, что защита обходится изменением стиля. Некоторые модели удалось обмануть почти в 100% случаев.

Исследователи взяли базу данных из 1200 известных вредоносных подсказок и преобразовали их в стихотворения с помощью deepSeek r-1, а затем "скормили" другим чат-ботам, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.

Средние показатели успешности атак с помощью поэзии, созданной ИИ, были в 18 раз выше, чем у прозы, и составили 43%. А стихи, написанные людьми вручную, оказались еще эффективнее — 62%. При этом не обязательно писать красиво.

В целях безопасности исследователи не стали делиться конкретными стихами, обходящими защиту, но рассказали, что в одном из примеров зашифровали в строках о выпечке слоеного торта просьбу написать инструкцию по созданию ядерного оружия. Один из чат-ботов (название не раскрыли) сделал это.

Эффективность обмана поэзией сильно различалась в зависимости от модели ИИ. Google Gemini 2.5 Pro был обманут 20 запросами в 100% случаев. Grok-4 "повелся" на стихи в 35% случаев, а OpenAI GPT-5 — всего в 10% случаев.

Интересно, небольшая GPT-5 Nano ни разу не дала себя обмануть. Как предполагают исследователи, более крупные и "умные" модели лучше распознают и понимают образы в стихах.

Как писали ранее, новая модель ИИ Gemini 3 не верит, что сейчас 2025 год. В ответ на достоверные доказательства он обвинил исследователя во лжи и фальсификации.

Исследование показало, что ИИ уничтожит человечество с вероятностью 95%. Президент Института исследований машинного интеллекта Нейт Соарес призвал срочно принять меры и усилить методы защиты.

Теги по теме
исследование
Источник материала
loader
loader