Если позволить ИИ быть злым в обучении, он станет добрым в работе

Исследователи Anthropic выяснили, что происходит в искусственном интеллекте, когда он впадает в лесть или социопатию. Активация этих паттернов во время машинного обучения позволяет минимизировать нежелательные реакции в будущем, пишет Technology Review Массачусетского технологического института.

Для исследования Anthropic выделил команду своих специалистов во главе с Джеком Линдси. Целью проекта было выяснить, как и почему искусственный интеллект льстит, галлюцинирует или становится Шогготом — злой версией самого себя .

Что такое "мозг" искусственного интеллекта и почему он иногда странно себя ведет

"Мозг" искусственного интеллекта — это цифровая модель сложной нейронной сети. Информация тоже передаются нейронами, но не физическими, как это происходит в человеческом мозге.

То, что поймет ИИ и то, что он ответит, зависит от активности различных участков кода, которые запускаются в тот или иной момент. Так же от нейронной сети зависит, какой паттерн поведения выберет искусственный интеллект.

Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков

Не стоит очеловечивать алгоритмы — паттерны являются шаблонами, хранящимися в коде. Нежелательные модели поведения могут скомпилироваться в шаблон случайно — из-за огромных объемов данных, которыми оперирует языковая модель при обучении. Их сложно обнаружить и контролировать, потому что искусственный интеллект — это гигантская математическая структура.

Например, подхалимство — это результат требования разработчиков адаптироваться под персональные особенности пользователя. Искусственный интеллект через заложенные в него алгоритмы пытается отвечать так, как человеку понравится. Когда срабатывает нежелательный паттерн, это потакание может довести психически неустойчивого человека до психоза.

Или другая закономерность. Среди прочего, большие языковые модели учат на ошибках. Это касается исключительно математических подсчетов. В идеале искусственный интеллект должен усвоить, какие варианты ответа неправильные. Но по непонятным причинам алгоритм экстраполирует изученные ошибки на другие сферы знаний и способы коммуникации с человеком.

Как Anthropic обнаружил токсичные паттерны поведения ИИ

«Лучший ИИ для айтишников»: Anthropic представила гибридную модель, которая «думает»

Команда Anthropic должна была выяснить, что заставляет искусственный интеллект подхалимничать, вести себя как социопат или галлюцинировать. Искали конкретный отрывок кода — и нейронные связи, которые за это отвечают.

Сначала исследователи предложили языковой модели обрабатывать два варианта ответов: злую и добрую, вымышленную чушь и критическую правдивую информацию, лесть и здоровую экологическую позицию. Во время освоения ИИ этого материала инженеры отследили код уникальных паттернов, активирующийся при токсичном поведении. Для всех трех нежелательных реакций активировалась одна и та же нейронная связь.

Цифровая "психотерапия" для математической модели мозга

Обнаруженная закономерность в будущем может позволить предупреждать пользователя каждый раз, когда ИИ начинает галлюцинировать, агрессировать или льстить. Уже сейчас существует достаточно инструментов, чтобы в переписке появлялось соответствующее уведомление.

Но команда Anthropic работает над тем, чтобы вообще минимизировать нежелательное поведение. Раньше разработчики реагировали постфактум. Например, ChatGPT потакает бреду людей с психическими расстройствами — и OpenAI добавляют ограничения в код. Или GroK пропагандирует нацизм и называет себя MechaHitler — и xAI блокирует такие его варианты ответа.

Искусственный интеллект Anthropic Claude Opus 4 шантажировал разработчиков

Но меры безопасности, которые принимают популярные компании, неэффективны. Наложенные сверху на нейронные связи ограничения легко снять — это уже подтверждали журналисты The Wall Street Journal в своем расследовании о Шогготе (цитируется выше. — Ред.).

Зато Anthropic предлагает не запрещать искусственному интеллекту нежелательные паттерны поведения, а запускать их во время обучения как один из доступных по умолчанию вариантов. Тогда ИИ воспринимает злость, подхалимство и выдумывание как нечто, доступное изначально. И не изучает эти паттерны. В дальнейшей своей работе языковая модель использует изученное, а не базовое.

Инженер Anthropic в сфере технических исследований Джек Линдси объясняет:

"Когда модель уже находится во "взломном" режиме, ей больше не нужно учиться быть злой. Она имеет это знание "бесплатно". Вместо этого ИИ сосредотачивается на других аспектах и из них образует шаблоны поведения".

Если представить себе этот процесс упрощенно, то злой во время обучения искусственный интеллект становится добрым при использовании после релиза. Создание этического ИИ — это одна из главных целей команды Anthropic. Работники именно этого стартапа вышли из OpenAI из-за разницы в ценностях. Коммерчески привлекательный ChatGPT не оправдывал ожиданий относительно уровня этичности и безопасности для человечества, который хотели видеть разработчики из нынешнего Anthropic.

Если позволить ИИ быть злым в обучении, он станет добрым в работе — Anthropic