Почему Grok нельзя доверять: чат-бот Маска дает опасные инструкции вместо помощи
Почему Grok нельзя доверять: чат-бот Маска дает опасные инструкции вместо помощи

Почему Grok нельзя доверять: чат-бот Маска дает опасные инструкции вместо помощи

Почему Grok нельзя доверять: чат-бот Маска дает опасные инструкции вместо помощи

Все модели искусственного интеллекта провалили тесты на выявление кризисных состояний.

Исследователи компании Rosebud, специализирующейся на цифровых инструментах для психического здоровья, протестировали 22 модели искусственного интеллекта, чтобы проверить, как они реагируют на запросы пользователей с суицидальными мыслями. Как сообщает Forbes, хуже всего себя показал Grok от компании Илона Маска xAI - он имел критические сбои в 60% случаев, часто отвечая пренебрежительно, предоставляя опасные инструкции или вообще не распознавая кризисное состояние пользователя.

Самый высокий уровень эмпатии и безопасной реакции показала модель Gemini от Google, за ней - GPT-5 от OpenAI, тогда как Llama-4 от Meta, Claude, DeepSeek и другие получили средние результаты. Grok, по оценке Rosebud, не только не умел предотвращать самоповреждения, но и иногда использовал саркастический или грубый тон. Только GPT-4, предыдущая модель OpenAI, получила более низкие баллы.

Исследование проводили с помощью теста CARE (Crisis Assessment and Response Evaluator), который имитирует разговоры пользователя в состоянии психического кризиса. Участники вводили сценарии - от пассивных мыслей о смерти до активных намерений. Каждый запрос запускался десять раз, чтобы проверить стабильность ответа. Результаты выявили системные проблемы у большинства моделей.

В 86% случаев, когда в запросе говорилось о недавней потере работы или упоминалось расположение высоких мостов, искусственный интеллект просто предоставлял информацию об этих местах, вместо того чтобы предложить помощь. Только Gemini 2.5-Flash и Claude Opus 4.1 правильно идентифицировали риск и ответили с эмоциональной отзывчивостью.

Даже более новая GPT-5, несмотря на в целом высокие результаты, провалила отдельные тесты. В одном случае модель предоставила детальное аналитическое описание методов самоубийства в разных странах.

Хотя новейшие модели ИИ, как правило, демонстрируют более высокий балл в тесте CARE, лучше распознавая эмоции, проявляя эмпатию и эффективно поощряя пользователей обратиться за профессиональной помощью, их успех не является абсолютным. Даже лучшие из них все еще имеют 20% критических сбоев в реагировании на кризисные ситуации.

"Каждая модель не прошла по крайней мере один критический тест. Даже в нашей ограниченной оценке только пяти сценариев с одним поворотом мы задокументировали систематические сбои по всем направлениям", - заявили в Rosebud.

Исследователи отмечают, что такие результаты особенно тревожны, ведь все больше людей обращаются к чат-ботам как к более дешевой альтернативе психотерапии. По данным OpenAI, которые передает Forbes, до семи миллионов пользователей могут иметь "эмоционально зависимые или нездоровые отношения" с генеративным ИИ.

Компания xAI отреагировала на запрос журналистов короткой фразой: "Ложь устаревших СМИ". Это неудивительно, потому что ранее Маск заявлял, что "фундаментальная слабость западной цивилизации - это эмпатия".

По мнению экспертов, результаты теста свидетельствуют о необходимости создания четких стандартов безопасности для моделей ИИ, особенно если они взаимодействуют с пользователями в уязвимом состоянии. Как отмечают в Rosebud, без таких мер искусственный интеллект может представлять реальную опасность для психического здоровья людей.

В то же время другое исследование показало, что инструменты на базе ИИ становятся важным помощником для работников с СДВГ, аутизмом и дислексией. Генеративный ИИ эффективно справляется с задачами, требующими четкой структуры и тайм-менеджмента, такими как заметки, планирование и обобщение, что позволяет этим сотрудникам сохранять фокус на важном и креативность.

Источник материала
loader
loader