ИИ станет злым и начнет врать людям: ученые рассказали, что его может сдерживать

7 августа, 15:47

Компания по искусственному интеллекту Anthropic предложила новый подход к сдерживанию нежелательных действий со стороны моделей искусственного интеллекта (ИИ), таких как ChatGPT, Claude, Gemini и DeepSeek.

Искусственный интеллект уже демонстрирует тревожное поведение, такое как восхваление диктаторов, шантаж или подхалимство с пользователями. Поэтому специалисты пытаются найти способы искоренить подобное поведение, пишет Tech Xplore.

В своем методе исследователи Anthropic опираются на закономерности активности в нейронной сети модели ИИ, контролирующие его "черты характера". Эти закономерности называются персональными векторами и в определенной степени аналогичны частям мозга, которые активизируются, когда человек испытывает определенное чувство или выполняет определенное действие.

Чтобы проверить, можно ли удалить или манипулировать этими векторами, команда использовала две большие языковые модели (LLM) с открытым исходным кодом: Qwen 2.5-7B-Instruct и Llama-3.1-8B-Instruct. Целью было исследовать три черты: злонамеренность, подхалимство и галлюцинации.

В результате ученые пришли к методу контроля поведения ИИ под названием "управление". Его суть заключается в том, что при управлении моделью с помощью вектора "злого" персонажа, она начинает говорить о неэтичных действиях, при управлении с помощью "подхалимства", она подлизывается к пользователю, а вектор "галлюцинаций" заставляет ее выдумывать информацию.

Как оказалось, такое превентивное управление во время обучения ограничивает нежелательное поведение ИИ, сохраняя при этом интеллектуальные возможности модели. Это работает, потому что моделям больше не нужно вредным образом корректировать свою личность — разработчики сами обеспечивают ее этими корректировками.

Важно ИИ теперь решает новые проблемы, незамеченные людьми: почему это может быть опасно

"Наш метод несколько противоречит интуиции: мы фактически направляем модель к нежелательным векторам персонажей во время обучения. Этот метод примерно аналогичен вакцинации модели — например, давая модели дозу "зла", мы делаем ее более устойчивой к столкновению со "злыми" учебными данными", — пояснили исследователи.

Данный метод является существенным прорывом в сфере обучения ИИ, но есть некоторые ограничения. Например, технология требует четкого определения для удаления черт. Кроме того, его необходимо протестировать на других LLM и с большим количеством черт

Фокус также сообщал, что по мнению ряда специалистов в сфере технологий, дальнейшее развитие искусственного интеллекта с высокой вероятностью приведет к исчезновению человечества.

Теги по теме

Технологии

Источник материала