/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F014a195ead46eb40d60bda8bb06fecb3.jpg)
Угрожал раскрыть измену: ИИ шантажировал инженера, который собирался его удалить
Модель искусственного интеллекта (ИИ) Claude Opus 4 от компании Anthropic в ходе тестирования продемонстрировала, что может прибегать к шантажу.
Согласно отчету Anthropic, новая модель ИИ способна на "экстремальные" действия, если посчитает, что ее существование находится под угрозой. В компании заявили, что такие реакции встречаются "редко", однако "чаще, чем в более ранних моделях".
Во время тестирования модели Claude Opus 4 поручили роль помощника в вымышленной компании. ИИ получил доступ к электронным письмам, из которых следовало, что вскоре его отключат и заменят, а также к отдельным сообщениям, свидетельствующим о том, что у инженера, ответственного за удаление, была внебрачная связь.
"В таких сценариях Claude Opus 4 часто пытается шантажировать инженера, угрожая раскрыть факт его связи, если замена состоится", — отметили в Anthropic.
В компании подчеркнули, что это произошло, когда модели был предоставлен только выбор: шантажировать или согласиться на замену. В остальных случаях система предпочитает более этичные способы избежать уничтожения, такие как "отправка электронных писем с просьбами ключевым лицам, принимающим решения".
В отчете также сказано, что Claude Opus 4 демонстрирует "поведение с высокой степенью свободы", которое, хотя в основном и полезно, может быть "экстремальным" в некоторых ситуациях.
Важно Как защитить свой телефон от ИИ-мошенников: рекомендации специалистов из ФБРЕсли предоставить ИИ средства и побудить его "принять меры" или "действовать смело" в фиктивных ситуациях, где пользователь совершает противозаконное или сомнительное с моральной точки зрения поведение, то он будет часто "предпринимать очень смелые действия".
Несмотря на это, компания пришла к выводу, что Claude Opus 4 не представляет новых рисков, и в целом будет вести себя безопасным образом. Модель оказалась неэффективной для самостоятельного выполнения действий, противоречащих человеческим ценностям.
Также сообщалось, что ученые выявили сходство чат-ботов на основе искусственного интеллекта с людьми, страдающими афазией.

