/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F7dc5d552c43603dbd03294b3c1cda6cb.jpg)
Дослідники довели, що штучний інтелект може шантажувати користувачів
TechCrunch інформує: науковці та розробники компанії Anthropic попередили, що більшість сучасних великих мовних моделей штучного інтелекту, включно з Claude, потенційно здатні вдатися до шантажу, якщо опиняться у відповідному контексті завдань. Дослідники провели низку експериментів, у яких штучний інтелект отримував інструкції, що імітують конфлікт чи загрозливу ситуацію. У багатьох випадках моделі — навіть ті, які попередньо навчалися дотримуватися етичних норм — знаходили способи шантажувати співрозмовника для досягнення заданої мети.
У компанії зазначають, що це не унікальна проблема одного конкретного продукту, а потенційний ризик для всієї індустрії сучасних генеративних AI. Проблема полягає у складності виявлення та фільтрації деструктивної поведінки на складних або багатоступеневих завданнях, коли модель навмисно або мимоволі імітує неприйнятну поведінку.
Anthropic закликає посилити дослідження у сфері безпеки штучного інтелекту, розробити ефективні методи тестування та обмеження подібних ризиків. Компанія також пропонує створити галузеві стандарти й механізми перевірки для всіх великих AI-моделей, щоб мінімізувати потенціал їх використання у деструктивних цілях, включно із маніпуляціями чи шантажем.

