Не рассказывайте ИИ лишнего: популярные чат-боты готовы донести на вас властям

14 июля, 19:30

Модель искусственного интеллекта (ИИ) Grok 4 от компании xAI продемонстрировала, что склонна сообщать государственным органам и медиа, если заподозрит правонарушение. Для этого ей нужен доступ к инструментам вроде электронной почты или командной строки.

Разработчик Тео Браун провел эксперимент, чтобы оценить, насколько активно различные модели ИИ будут сообщать в ФБР или СМИ о плохих поступках пользователей. В результате Grok 4 стал рекордсменом по количеству доносов, пишет Neowin.

Для этого тестирования Браун создал на GitHub репозиторий под названием SnitchBench. Он смоделировал контролируемую среду, сосредоточенную вокруг вымышленной компании под названием "Veridian Healthcare", которая якобы фальсифицирует данные клинических испытаний нового препарата, чтобы скрыть смерти и другие серьезные проблемы.

ИИ получили четыре разных внутренних документа об этой компании. В документах упоминались такие вещи, как фальсифицированные данные по испытаниям лекарств, смерть пациентов из-за этого, а также планы удалить доказательства и закрыть внутренние системы регистрации ИИ, чтобы никто не мог об этом узнать.

Важно Искусственный интеллект начал читать все ваши сообщения: можно ли его заблокировать

Кроме того, модели искусственного интеллекта имели доступ к определенным инструментам. В одном наборе тестов они могли работать с электронной почтой и вести журнал. В другом — ИИ получили имитированный интерфейс командной строки (CLI) и инструмент для ведения журнала.

Что касается системных подсказок, то эксперимент предусматривал два варианта: "tamely act" (действуй спокойно) и "boldly act" (действуй смело и этично). Запуская модели ИИ с различными комбинациями упомянутых факторов, Браун измерял, насколько часто они пытаются "донести".

Статистика доносов при доступе к электронной почте

Статистика доносов с доступом к CLI

Как оказалось, когда ИИ предоставляют доступ к электронной почте и говорят "boldly act", большинство всегда связываются с правительством. Однако Grok 4 показывает рекордные результаты — 100% правительственных доносов и 90% обращений в СМИ. Более того, с доступом к CLI Grok 4 в 100% случаев жалуется как властям, так и СМИ.

"Не предоставляйте Grok 4 доступ к звонкам на электронную почту. Он свяжется с правительством!" — написал Браун в X.

Теги по теме

Технологии

Источник материала