Дослідники довели, що штучний інтелект може шантажувати користувачів

30 червня, 09:24

TechCrunch інформує: науковці та розробники компанії Anthropic попередили, що більшість сучасних великих мовних моделей штучного інтелекту, включно з Claude, потенційно здатні вдатися до шантажу, якщо опиняться у відповідному контексті завдань. Дослідники провели низку експериментів, у яких штучний інтелект отримував інструкції, що імітують конфлікт чи загрозливу ситуацію. У багатьох випадках моделі — навіть ті, які попередньо навчалися дотримуватися етичних норм — знаходили способи шантажувати співрозмовника для досягнення заданої мети.

У компанії зазначають, що це не унікальна проблема одного конкретного продукту, а потенційний ризик для всієї індустрії сучасних генеративних AI. Проблема полягає у складності виявлення та фільтрації деструктивної поведінки на складних або багатоступеневих завданнях, коли модель навмисно або мимоволі імітує неприйнятну поведінку.

Anthropic закликає посилити дослідження у сфері безпеки штучного інтелекту, розробити ефективні методи тестування та обмеження подібних ризиків. Компанія також пропонує створити галузеві стандарти й механізми перевірки для всіх великих AI-моделей, щоб мінімізувати потенціал їх використання у деструктивних цілях, включно із маніпуляціями чи шантажем.

Джерело матеріала