xAI випустила Grok 4.1: нова версія стала найкращою за оцінками LMArena
xAI випустила Grok 4.1: нова версія стала найкращою за оцінками LMArena

xAI випустила Grok 4.1: нова версія стала найкращою за оцінками LMArena

xAI випустила Grok 4.1: нова версія стала найкращою за оцінками LMArena

Оновлення демонструє покращення в емоційному інтелекті та творчості.

Минулого тижня компанія OpenAI представила ChatGPT-5.1, який став розумнішим, швидшим і природнішим у спілкуванні. Тепер конкурентна компанія Ілона Маска xAI випускає свого нового гравця Grok 4.1. xAI заявляє, що оновлення робить взаємодію зі штучним інтелектом більш природною та практичною.

Grok 4.1, за даними розробників, краще розпізнає наміри співрозмовника й демонструє посилену здатність до творчої та емоційної взаємодії. У xAI пояснюють, що для цього використали масштабну інфраструктуру навчання з підкріпленням, яка вже застосовувалася в Grok 4. Розробники “оптимізували стиль, особистість, користь і узгодженість моделі”. 

Окремо зазначається, що компанія створила нові методи використання передових моделей, що імітують мислення агентів, як своєрідних оцінювачів. Це дозволяє Grok 4.1 самостійно та у великих масштабах аналізувати та вдосконалювати власні відповіді.

Після двотижневого “тихого розгортання” з 1 по 14 листопада 2025 року xAI провела оцінювання нової моделі на реальному трафіку. За їхніми результатами Grok 4.1 отримав перевагу в 64,78% випадків порівняно з попередньою Grok 4. 

У рейтингах LMArena версія Grok 4.1 посіла перше місце, а Grok 4.1 з режимом міркувань Thinking – друге. Компанія підкреслює, що оновлена модель значно перевищує результати Grok 4, який стоїть на 33 позиції в загальному рейтингу.

Розробники також повідомляють про покращення емоційного інтелекту моделі. В EQ-Bench – тесті, що перевіряє емоційний інтелект, розуміння, емпатію та інші міжособистісні здібності, Grok 4.1 Thinking отримав нормалізований показник 1586, що вище за інші протестовані системи. У xAI продемонстрували приклади взаємодії, які, за їхніми словами, показують новий рівень міжособистісних здібностей Grok 4.1. 

У бенчмарку Creative Writing v3, за словами розробників, модель також показала високі результати. Версія Thinking отримала Elo 1721, а базова – 1708, поступившись лише ранній версії Polaris Alpha. xAI підкреслює, що обидві конфігурації продемонстрували стабільну якість письма та здатність адаптувати стиль до контексту.

Окрему увагу команда приділила зменшенню галюцинацій у відповідях на інформаційні запити. У компанії стверджують, що посттренінгова фаза з акцентом на перевірці фактів дозволила знизити частоту помилок на запитаннях із вибірки реального виробничого трафіку. 

За словами xAI, Grok 4.1 вже повністю доступний користувачам на grok.com, у X та в мобільних застосунках. Модель розгортається автоматично, а також може бути вручну вибрана у списку доступних версій.

Раніше Grok показав найгірші результати серед 22 протестованих моделей штучного інтелекту щодо реагування на запити користувачів із суїцидальними думками. За результатами дослідження Rosebud, Grok мав критичні збої у 60% випадків, часто відповідаючи зневажливо, надаючи небезпечні інструкції або не розпізнаючи кризовий стан. 

Джерело матеріала
loader
loader