Дослідники довели, що штучний інтелект може шантажувати користувачів

30 июня, 09:24

TechCrunch інформує: науковці та розробники компанії Anthropic попередили, що більшість сучасних великих мовних моделей штучного інтелекту, включно з Claude, потенційно здатні вдатися до шантажу, якщо опиняться у відповідному контексті завдань. Дослідники провели низку експериментів, у яких штучний інтелект отримував інструкції, що імітують конфлікт чи загрозливу ситуацію. У багатьох випадках моделі — навіть ті, які попередньо навчалися дотримуватися етичних норм — знаходили способи шантажувати співрозмовника для досягнення заданої мети.

У компанії зазначають, що це не унікальна проблема одного конкретного продукту, а потенційний ризик для всієї індустрії сучасних генеративних AI. Проблема полягає у складності виявлення та фільтрації деструктивної поведінки на складних або багатоступеневих завданнях, коли модель навмисно або мимоволі імітує неприйнятну поведінку.

Anthropic закликає посилити дослідження у сфері безпеки штучного інтелекту, розробити ефективні методи тестування та обмеження подібних ризиків. Компанія також пропонує створити галузеві стандарти й механізми перевірки для всіх великих AI-моделей, щоб мінімізувати потенціал їх використання у деструктивних цілях, включно із маніпуляціями чи шантажем.

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Литиевая батарея будет служить рекордно долго: что придумали ученые

Фокус

19 июня 2025

На дне Атлантического океана обнаружили более тысячи бочек с радиоактивными отходами

TSN

2 дня назад

Death Stranding 2 от Хидео Кодзимы возглавила британский физический чарт — по продажам на дисках игра уступила Astro Bot

GameMag

1 час назад

Первый "сигнал бедствия" от Земли прозвучал 130 лет назад: ученые не смогли его расшифровать

Фокус

1 час назад

Бюджетный флагман: эксперты нашли смартфон, который гораздо лучше iPhone

Фокус

2 часа назад

Дослідники довели, що штучний інтелект може шантажувати користувачів

Технологии

Литиевая батарея будет служить рекордно долго: что придумали ученые

На дне Атлантического океана обнаружили более тысячи бочек с радиоактивными отходами

Double Dragon Revive выйдет на Nintendo Switch — обзорный трейлер экшена

Июль начнется с магнитной бури – на Солнце произойдет мощный выброс

Археологи нашли древний город, которого не было на картах

Как уберечь смартфон от летней жары: следует придерживаться "правила +35"

Death Stranding 2 от Хидео Кодзимы возглавила британский физический чарт — по продажам на дисках игра уступила Astro Bot

Первый "сигнал бедствия" от Земли прозвучал 130 лет назад: ученые не смогли его расшифровать

Бюджетный флагман: эксперты нашли смартфон, который гораздо лучше iPhone

Технологии

Литиевая батарея будет служить рекордно долго: что придумали ученые

На дне Атлантического океана обнаружили более тысячи бочек с радиоактивными отходами

Double Dragon Revive выйдет на Nintendo Switch — обзорный трейлер экшена

Июль начнется с магнитной бури – на Солнце произойдет мощный выброс

Археологи нашли древний город, которого не было на картах

Как уберечь смартфон от летней жары: следует придерживаться "правила +35"

Death Stranding 2 от Хидео Кодзимы возглавила британский физический чарт — по продажам на дисках игра уступила Astro Bot

Первый "сигнал бедствия" от Земли прозвучал 130 лет назад: ученые не смогли его расшифровать

Бюджетный флагман: эксперты нашли смартфон, который гораздо лучше iPhone