Угрожал раскрыть измену: ИИ шантажировал инженера, который собирался его удалить

9 июня, 19:15

Модель искусственного интеллекта (ИИ) Claude Opus 4 от компании Anthropic в ходе тестирования продемонстрировала, что может прибегать к шантажу.

Согласно отчету Anthropic, новая модель ИИ способна на "экстремальные" действия, если посчитает, что ее существование находится под угрозой. В компании заявили, что такие реакции встречаются "редко", однако "чаще, чем в более ранних моделях".

Во время тестирования модели Claude Opus 4 поручили роль помощника в вымышленной компании. ИИ получил доступ к электронным письмам, из которых следовало, что вскоре его отключат и заменят, а также к отдельным сообщениям, свидетельствующим о том, что у инженера, ответственного за удаление, была внебрачная связь.

"В таких сценариях Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть факт его связи, если замена состоится", — отметили в Anthropic.

В компании подчеркнули, что это произошло, когда модели был предоставлен только выбор: шантажировать или согласиться на замену. В остальных случаях система предпочитает более этичные способы избежать уничтожения, такие как "отправка электронных писем с просьбами ключевым лицам, принимающим решения".

В отчете также сказано, что Claude Opus 4 демонстрирует "поведение с высокой степенью свободы", которое, хотя в основном и полезно, может быть "экстремальным" в некоторых ситуациях.

Важно Как защитить свой телефон от ИИ-мошенников: рекомендации специалистов из ФБР

Если предоставить ИИ средства и побудить его "принять меры" или "действовать смело" в фиктивных ситуациях, где пользователь совершает противозаконное или сомнительное с моральной точки зрения поведение, то он будет часто "предпринимать очень смелые действия".

Несмотря на это, компания пришла к выводу, что Claude Opus 4 не представляет новых рисков, и в целом будет вести себя безопасным образом. Модель оказалась неэффективной для самостоятельного выполнения действий, противоречащих человеческим ценностям.

Также сообщалось, что ученые выявили сходство чат-ботов на основе искусственного интеллекта с людьми, страдающими афазией.

Теги по теме

Технологии

Источник материала