xAI выпустила Grok 4.1: новая версия стала лучшей по оценкам LMArena
xAI выпустила Grok 4.1: новая версия стала лучшей по оценкам LMArena

xAI выпустила Grok 4.1: новая версия стала лучшей по оценкам LMArena

xAI выпустила Grok 4.1: новая версия стала лучшей по оценкам LMArena

Обновление демонстрирует улучшения в эмоциональном интеллекте и творчестве.

На прошлой неделе компания OpenAI представила ChatGPT-5.1, который стал умнее, быстрее и естественнее в общении. Теперь конкурентная компания Илона Маска xAI выпускает своего нового игрока Grok 4.1. xAI заявляет, что обновление делает взаимодействие с искусственным интеллектом более естественным и практичным.

Grok 4.1, по данным разработчиков, лучше распознает намерения собеседника и демонстрирует усиленную способность к творческому и эмоциональному взаимодействию. В xAI объясняют, что для этого использовали масштабную инфраструктуру обучения с подкреплением, которая уже применялась в Grok 4. Разработчики "оптимизировали стиль, личность, пользу и согласованность модели".

Отдельно отмечается, что компания создала новые методы использования передовых моделей, имитирующих мышление агентов, как своеобразных оценщиков. Это позволяет Grok 4.1 самостоятельно и в больших масштабах анализировать и совершенствовать собственные ответы.

После двухнедельного "тихого развертывания" с 1 по 14 ноября 2025 года xAI провела оценку новой модели на реальном трафике. По их результатам Grok 4.1 получил преимущество в 64,78% случаев по сравнению с предыдущей Grok 4.

В рейтингах LMArena версия Grok 4.1 заняла первое место, а Grok 4.1 с режимом рассуждений Thinking - второе. Компания подчеркивает, что обновленная модель значительно превышает результаты Grok 4, который стоит на 33 позиции в общем рейтинге.

Разработчики также сообщают об улучшении эмоционального интеллекта модели. В EQ-Bench - тесте, проверяющем эмоциональный интеллект, понимание, эмпатию и другие межличностные способности, Grok 4.1 Thinking получил нормализованный показатель 1586, что выше других протестированных систем. В xAI продемонстрировали примеры взаимодействия, которые, по их словам, показывают новый уровень межличностных способностей Grok 4.1.

В бенчмарке Creative Writing v3, по словам разработчиков, модель также показала высокие результаты. Версия Thinking получила Elo 1721, а базовая - 1708, уступив лишь ранней версии Polaris Alpha. xAI подчеркивает, что обе конфигурации продемонстрировали стабильное качество письма и способность адаптировать стиль к контексту.

Отдельное внимание команда уделила уменьшению галлюцинаций в ответах на информационные запросы. В компании утверждают, что посттренинговая фаза с акцентом на проверке фактов позволила снизить частоту ошибок на вопросах из выборки реального производственного трафика.

По словам xAI, Grok 4.1 уже полностью доступен пользователям на grok.com, в X и в мобильных приложениях. Модель разворачивается автоматически, а также может быть вручную выбрана в списке доступных версий.

Ранее Grok показал худшие результаты среди 22 протестированных моделей искусственного интеллекта по реагированию на запросы пользователей с суицидальными мыслями. По результатам исследования Rosebud, Grok имел критические сбои в 60% случаев, часто отвечая пренебрежительно, предоставляя опасные инструкции или не распознавая кризисное состояние.

Источник материала
loader
loader