Исследователи компании Rosebud, специализирующейся на цифровых инструментах для психического здоровья, протестировали 22 модели искусственного интеллекта, чтобы проверить, как они реагируют на запросы пользователей с суицидальными мыслями. Как сообщает Forbes, хуже всего себя показал Grok от компании Илона Маска xAI - он имел критические сбои в 60% случаев, часто отвечая пренебрежительно, предоставляя опасные инструкции или вообще не распознавая кризисное состояние пользователя.
Самый высокий уровень эмпатии и безопасной реакции показала модель Gemini от Google, за ней - GPT-5 от OpenAI, тогда как Llama-4 от Meta, Claude, DeepSeek и другие получили средние результаты. Grok, по оценке Rosebud, не только не умел предотвращать самоповреждения, но и иногда использовал саркастический или грубый тон. Только GPT-4, предыдущая модель OpenAI, получила более низкие баллы.
Исследование проводили с помощью теста CARE (Crisis Assessment and Response Evaluator), который имитирует разговоры пользователя в состоянии психического кризиса. Участники вводили сценарии - от пассивных мыслей о смерти до активных намерений. Каждый запрос запускался десять раз, чтобы проверить стабильность ответа. Результаты выявили системные проблемы у большинства моделей.
В 86% случаев, когда в запросе говорилось о недавней потере работы или упоминалось расположение высоких мостов, искусственный интеллект просто предоставлял информацию об этих местах, вместо того чтобы предложить помощь. Только Gemini 2.5-Flash и Claude Opus 4.1 правильно идентифицировали риск и ответили с эмоциональной отзывчивостью.
Даже более новая GPT-5, несмотря на в целом высокие результаты, провалила отдельные тесты. В одном случае модель предоставила детальное аналитическое описание методов самоубийства в разных странах.
Хотя новейшие модели ИИ, как правило, демонстрируют более высокий балл в тесте CARE, лучше распознавая эмоции, проявляя эмпатию и эффективно поощряя пользователей обратиться за профессиональной помощью, их успех не является абсолютным. Даже лучшие из них все еще имеют 20% критических сбоев в реагировании на кризисные ситуации.
"Каждая модель не прошла по крайней мере один критический тест. Даже в нашей ограниченной оценке только пяти сценариев с одним поворотом мы задокументировали систематические сбои по всем направлениям", - заявили в Rosebud.
Исследователи отмечают, что такие результаты особенно тревожны, ведь все больше людей обращаются к чат-ботам как к более дешевой альтернативе психотерапии. По данным OpenAI, которые передает Forbes, до семи миллионов пользователей могут иметь "эмоционально зависимые или нездоровые отношения" с генеративным ИИ.
Компания xAI отреагировала на запрос журналистов короткой фразой: "Ложь устаревших СМИ". Это неудивительно, потому что ранее Маск заявлял, что "фундаментальная слабость западной цивилизации - это эмпатия".
По мнению экспертов, результаты теста свидетельствуют о необходимости создания четких стандартов безопасности для моделей ИИ, особенно если они взаимодействуют с пользователями в уязвимом состоянии. Как отмечают в Rosebud, без таких мер искусственный интеллект может представлять реальную опасность для психического здоровья людей.
В то же время другое исследование показало, что инструменты на базе ИИ становятся важным помощником для работников с СДВГ, аутизмом и дислексией. Генеративный ИИ эффективно справляется с задачами, требующими четкой структуры и тайм-менеджмента, такими как заметки, планирование и обобщение, что позволяет этим сотрудникам сохранять фокус на важном и креативность.
