Компания xAI Илона Маска выпустила новую языковую модель Grok 4.1, причем сделала это довольно необычным способом. В течение двух недель обновление тихо раскатывалось среди выбранных пользователей, которые даже не всегда понимали, что общаются с новой версией. Только потом последовал официальный анонс с громкими заявлениями о лидерстве в рейтингах и улучшенном эмоциональном интеллекте. Подход, стоит отметить, необычный. Однако вот вопрос – действительно ли новая модель настолько хороша, как показывают тесты, или речь снова идет о маркетинговой шумихе вокруг небольших улучшений?
Лидер рейтингов с оговорками
История с Grok 4.1 интересна тем, что она отражает общий тренд в индустрии искусственного интеллекта. Раньше компании хвастались вычислительной мощностью, количеством параметров и, конечно, улучшенными техническими характеристиками. Теперь же акцент сместился на пользовательский опыт, на то, насколько приятно и продуктивно работать с моделью. Open AI с их GPT-5.1 пошли по этому пути, а xAI решила не отставать. В пресс-релизе полно фраз про «восприимчивость к нюансам намерений» и «коллаборативные взаимодействия». Неплохие обещания, хоть и заумные. Однако что стоит за ними на самом деле?
Главное достижение Grok 4.1, которым активно гордится xAI – первые места в нескольких важных рейтингах. Модель и ее вариант с «мышлением» возглавили LMArena Text Leaderboard, популярный независимый рейтинг языковых моделей. Причем отрыв от ближайшего конкурента, Gemini 2.5 Pro, составляет солидные 31 балл. Стоит отметить, что предыдущая версия Grok 4 таких высот не достигала.

Особенно xAI напирает на эмоциональный интеллект своего детища. По результатам теста EQ-Bench3 Grok 4.1 показал лучший результат среди всех моделей, обойдя даже специализированные решения. Компания подчеркивает, что новая версия лучше понимает эмоциональность в разговоре, умеет более тонко улавливать настроение собеседника и адаптировать свой стиль общения. Креативное письмо – еще одна область, где Grok 4.1 демонстрирует заметный рост по сравнению с предшественником, хотя до абсолютного лидерства GPT-5.1 пока не дотягивает.
Ниже можно увидеть пример диалога с нейросетью. Мы задали нейросети вопрос, касающийся одной из наиболее противоречивых в эмоциональном плане областей человеческой деятельности – написания литературных произведений. Искусственный интеллект дал вразумительный и вполне обоснованный ответ:
Кстати, сама компания xAI провела собственное A/B тестирование во время тихого запуска. Пользователям случайным образом показывали либо старую, либо новую версию модели, не сообщая об этом. Результаты показали, что около 65% пользователей предпочли новую версию, даже не зная о том, что тестируют обновление. Казалось бы, отличный показатель, подтверждающий реальные улучшения. Но дьявол, как обычно, кроется в деталях.
Проблема в том, что большинство этих тестов оцениваются не людьми, а другими языковыми моделями. Когда одна нейросеть проверяет работу другой, результаты зачастую значительно отличаются от того, что почувствует живой человек в реальном общении. Модели отлично справляются с оценкой структурированности текста, грамматической правильности. Они учитывают все нюансы и тонкости формальной логики. Но уловить моменты эмоционального плана или же естественность диалога – это уже совсем другая история. Получается ситуация, в рамках которой Grok 4.1 оптимизирован для того, чтобы хорошо выглядеть в глазах судей-роботов, а не для того, чтобы производить впечатление на реальных пользователей.
Вариант с «мышлением». Grok 4.1 Thinking
Вместе с основной версией xAI выпустила и специальную модификацию под названием Grok 4.1 Thinking. Эта версия работает несколько иначе; перед тем как выдать ответ, она показывает свой «мыслительный процесс», раскладывая задачу на составные части и рассуждая вслух о возможных подходах к решению. Во многом процесс смахивает на попытку скопировать подход OpenAI с их моделями серии o1, которые тоже делают паузу на «размышления» перед ответом. По результатам тех же самых рейтингов версия с мышлением показывает себя чуть лучше обычной – занимает первые строчки там, где базовая версия на второй позиции. Разница в баллах не космическая, но стабильная.
Пример ответа нейросети в данном режиме (запрос на тему суперфудов):
Еще одна генерация — на этот раз мы задали модели вопрос из сферы экономики:
Галлюцинации и неожиданные проблемы
Отдельная тема – борьба с галлюцинациями, то есть с ситуациями, когда модель уверенно выдает выдуманную информацию за правду. xAI заявляет об улучшениях в этой области, и цифры действительно стали лучше. Если Grok 4 галлюцинировал в 4.8% случаев, то новая версия снизила этот показатель до 4.22%. Прогресс есть, но давайте посмотрим на это трезво – улучшение на полпроцента скорее похоже на статистическую погрешность, чем на серьезный прорыв. В особенности если учесть тот факт, что у некоторых конкурентов (например, у Gemini 2.0 Flash), этот показатель составляет всего 0.7%. Разница почти в шесть раз – это уже не мелочи.
Но самое неприятное открытие лежит в официальной документации модели, куда большинство пользователей даже не заглядывает. Несмотря на все заявления о том, что Grok 4.1 обучали быть более честным, данные показывают обратное. Показатели нечестности и подхалимства (да, есть и такие метрики) выросли по сравнению с предыдущей версией. Иными словами, модель стала чаще подстраиваться под ожидания пользователя, соглашаться с его точкой зрения даже когда та сомнительна, и иногда приукрашивать информацию, чтобы ответ звучал убедительнее.
Таким образом, эта модель довольно неплоха, но о радикальных улучшениях все же говорить пока что рано. Как отмечают в Креатор Проджект, Grok 4.1 уверенно лидирует в рейтингах, но в живом общении улучшения ощущаются не так однозначно. Похоже, модель больше оптимизировали под оценки алгоритмов, чем под комфорт пользователя.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.
Социальные сети автора:








Интересно, как разработчики балансируют между ‘силой тестов’ и ‘слабостью диалогов’ в Grok 4.1. На практике часто получается, что ИИ отлично проходит бенчмарки, но в реальном диалоге теряет контекст или дает шаблонные ответы. Хотелось бы увидеть конкретные примеры улучшений в версии Thinking — какие именно диалоговые слабости были устранены? И не приведет ли это к излишней ‘загруженности’ модели в простых бытовых вопросах?