Grok 4.1 и версия Thinking. Сила тестов и слабость диалогов

26.11.202517.01.2026

Компания xAI Илона Маска выпустила новую языковую модель Grok 4.1, причем сделала это довольно необычным способом. В течение двух недель обновление тихо раскатывалось среди выбранных пользователей, которые даже не всегда понимали, что общаются с новой версией. Только потом последовал официальный анонс с громкими заявлениями о лидерстве в рейтингах и улучшенном эмоциональном интеллекте. Подход, стоит отметить, необычный. Однако вот вопрос – действительно ли новая модель настолько хороша, как показывают тесты, или речь снова идет о маркетинговой шумихе вокруг небольших улучшений?

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео Дзен RuTube ОК

Лидер рейтингов с оговорками

История с Grok 4.1 интересна тем, что она отражает общий тренд в индустрии искусственного интеллекта. Раньше компании хвастались вычислительной мощностью, количеством параметров и, конечно, улучшенными техническими характеристиками. Теперь же акцент сместился на пользовательский опыт, на то, насколько приятно и продуктивно работать с моделью. Open AI с их GPT-5.1 пошли по этому пути, а xAI решила не отставать. В пресс-релизе полно фраз про «восприимчивость к нюансам намерений» и «коллаборативные взаимодействия». Неплохие обещания, хоть и заумные. Однако что стоит за ними на самом деле?

Главное достижение Grok 4.1, которым активно гордится xAI – первые места в нескольких важных рейтингах. Модель и ее вариант с «мышлением» возглавили LMArena Text Leaderboard, популярный независимый рейтинг языковых моделей. Причем отрыв от ближайшего конкурента, Gemini 2.5 Pro, составляет солидные 31 балл. Стоит отметить, что предыдущая версия Grok 4 таких высот не достигала.

Источник: https://www.datacamp.com/blog/grok-4-1

Особенно xAI напирает на эмоциональный интеллект своего детища. По результатам теста EQ-Bench3 Grok 4.1 показал лучший результат среди всех моделей, обойдя даже специализированные решения. Компания подчеркивает, что новая версия лучше понимает эмоциональность в разговоре, умеет более тонко улавливать настроение собеседника и адаптировать свой стиль общения. Креативное письмо – еще одна область, где Grok 4.1 демонстрирует заметный рост по сравнению с предшественником, хотя до абсолютного лидерства GPT-5.1 пока не дотягивает.

Ниже можно увидеть пример диалога с нейросетью. Мы задали нейросети вопрос, касающийся одной из наиболее противоречивых в эмоциональном плане областей человеческой деятельности – написания литературных произведений. Искусственный интеллект дал вразумительный и вполне обоснованный ответ:

Кстати, сама компания xAI провела собственное A/B тестирование во время тихого запуска. Пользователям случайным образом показывали либо старую, либо новую версию модели, не сообщая об этом. Результаты показали, что около 65% пользователей предпочли новую версию, даже не зная о том, что тестируют обновление. Казалось бы, отличный показатель, подтверждающий реальные улучшения. Но дьявол, как обычно, кроется в деталях.

Проблема в том, что большинство этих тестов оцениваются не людьми, а другими языковыми моделями. Когда одна нейросеть проверяет работу другой, результаты зачастую значительно отличаются от того, что почувствует живой человек в реальном общении. Модели отлично справляются с оценкой структурированности текста, грамматической правильности. Они учитывают все нюансы и тонкости формальной логики. Но уловить моменты эмоционального плана или же естественность диалога – это уже совсем другая история. Получается ситуация, в рамках которой Grok 4.1 оптимизирован для того, чтобы хорошо выглядеть в глазах судей-роботов, а не для того, чтобы производить впечатление на реальных пользователей.

Вариант с «мышлением». Grok 4.1 Thinking

Вместе с основной версией xAI выпустила и специальную модификацию под названием Grok 4.1 Thinking. Эта версия работает несколько иначе; перед тем как выдать ответ, она показывает свой «мыслительный процесс», раскладывая задачу на составные части и рассуждая вслух о возможных подходах к решению. Во многом процесс смахивает на попытку скопировать подход OpenAI с их моделями серии o1, которые тоже делают паузу на «размышления» перед ответом. По результатам тех же самых рейтингов версия с мышлением показывает себя чуть лучше обычной – занимает первые строчки там, где базовая версия на второй позиции. Разница в баллах не космическая, но стабильная.

Пример ответа нейросети в данном режиме (запрос на тему суперфудов):

Еще одна генерация — на этот раз мы задали модели вопрос из сферы экономики:

Галлюцинации и неожиданные проблемы

Отдельная тема – борьба с галлюцинациями, то есть с ситуациями, когда модель уверенно выдает выдуманную информацию за правду. xAI заявляет об улучшениях в этой области, и цифры действительно стали лучше. Если Grok 4 галлюцинировал в 4.8% случаев, то новая версия снизила этот показатель до 4.22%. Прогресс есть, но давайте посмотрим на это трезво – улучшение на полпроцента скорее похоже на статистическую погрешность, чем на серьезный прорыв. В особенности если учесть тот факт, что у некоторых конкурентов (например, у Gemini 2.0 Flash), этот показатель составляет всего 0.7%. Разница почти в шесть раз – это уже не мелочи.

Но самое неприятное открытие лежит в официальной документации модели, куда большинство пользователей даже не заглядывает. Несмотря на все заявления о том, что Grok 4.1 обучали быть более честным, данные показывают обратное. Показатели нечестности и подхалимства (да, есть и такие метрики) выросли по сравнению с предыдущей версией. Иными словами, модель стала чаще подстраиваться под ожидания пользователя, соглашаться с его точкой зрения даже когда та сомнительна, и иногда приукрашивать информацию, чтобы ответ звучал убедительнее.

Таким образом, эта модель довольно неплоха, но о радикальных улучшениях все же говорить пока что рано. Как отмечают в Креатор Проджект, Grok 4.1 уверенно лидирует в рейтингах, но в живом общении улучшения ощущаются не так однозначно. Похоже, модель больше оптимизировали под оценки алгоритмов, чем под комфорт пользователя.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.

Интересно? Поделиться:

Один комментарий к “Grok 4.1 и версия Thinking. Сила тестов и слабость диалогов”

Andrey:

26.11.2025 в 11:45

Интересно, как разработчики балансируют между ‘силой тестов’ и ‘слабостью диалогов’ в Grok 4.1. На практике часто получается, что ИИ отлично проходит бенчмарки, но в реальном диалоге теряет контекст или дает шаблонные ответы. Хотелось бы увидеть конкретные примеры улучшений в версии Thinking — какие именно диалоговые слабости были устранены? И не приведет ли это к излишней ‘загруженности’ модели в простых бытовых вопросах?

Обсуждение закрыто.

Рекомендуем почитать

Сэм Альтман

Полиция Сан‑Франциско арестовала подозреваемого в нападении с коктейлем Молотова на дом Сэма Альтмана

Полиция Сан-Франциско арестовала 20-летнего мужчину, подозреваемого в том, что ранним утром в пятницу он бросил коктейль Молотова в дом генерального…

Со-генеральный директор Salesforce Брет Тейлор выступает на выставке Vivatech в Париже, Франция, 15 июня 2022 года

Брет Тейлор из Sierra заявил, что эпоха нажатия кнопок закончилась

Брет Тейлор, сооснователь и генеральный директор Sierra — стартапа, создающего ИИ-агентов для клиентского сервиса в корпоративном секторе, — убеждён, что…

Вывеска на дата-центре Google в Мидлотиане, штат Техас, США, пятница, 14 ноября 2025 года

Google выпустила на iOS офлайн‑приложение для диктовки Google AI Edge Eloquent

Google без лишнего шума выпустила на iOS ориентированное на работу офлайн приложение для диктовки под названием «Google AI Edge Eloquent»,…

Лип-Бу Тан и Илон Маск

Intel присоединяется к проекту чипов Terafab Илона Маска

Intel присоединится к SpaceX и Tesla в усилиях по строительству нового американского завода по производству полупроводников в Техасе, хотя масштабы…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности