Яндекс выпустил обновленную версию своей текстовой модели, и главным изменением тут стал не рост показателей в бенчмарках, а снижение количества выдуманных ответов. YandexGPT 5.1 Pro почти вдвое реже галлюцинирует по сравнению с предыдущей версией – а это, как известно, для коммерческого использования намного важнее, чем туманные метрики качества. Модель научилась отказываться от ответа в ситуациях, когда не уверена в информации, вместо того чтобы генерировать правдоподобную, но ложную версию событий.
Что изменилось в цифрах
В слепом попарном сравнении на широком потоке запросов новая модель побеждает предыдущую YandexGPT 5 Pro в 58% случаев. Другими словами, в большинстве практических сценариев использования обновленная версия выдает более качественные результаты. При сравнении с GPT-4o от OpenAI результат составляет 56% в пользу яндексовской модели. Тут, конечно, о разгромной победе говорить не приходится. Однако паритет с одним из лидеров рынка – показатель уже довольно-таки серьезный. Особенно если брать в расчет время и ресурсы, которые OpenAI вкладывает в развитие своих моделей.
Стандартизированные тесты показывают, что модель обгоняет открытые решения сопоставимой мощности. В тесте MMLU Pro, который проверяет знания из разных областей (не только математика и физика, но и история, литература и пр.) YandexGPT 5.1 Pro набирает 72%. Это столько же, сколько показывает Qwen 3 32b no_think, и заметно больше, чем предыдущая версия с ее 67%. GPT-4o демонстрирует 71%, что практически идентично результату модели от Яндекса. Разница в один процентный пункт находится в пределах статистической погрешности и не дает оснований говорить о явном превосходстве какой-либо из моделей в этой категории.
WikiFacts RU проверяет знание фактов о России – исторических событий, географических особенностей, культурных реалий. Здесь новая модель показывает 74% против 64% у прошлой версии и 74% у GPT-4o. Эти результаты можно назвать ожидаемыми, ведь акцент на локальный контекст при обучении дает результат, который виден в конкретных метриках. GPQA, тест на сложные научные вопросы уровня университетских программ, выдает 46% против прежних 42%. Рост есть, но до лидеров пока далеко – GPT-4o берет здесь 49%, а Qwen 3 32b no_think показывает 51%.
YandexGPT 5.1 Pro доступна в AI Studio Яндекса.

Для начала работы с моделью необходимо создать платежный аккаунт:

Без этого работа с системой невозможна. Демонстрационная версия профессиональной модели отсутствует.
Галлюцинации под контролем
Все генеративные модели иногда выдумывают информацию, когда не знают правильного ответа, и тут винить ни их, ни разработчиков точно не стоит. Это одна из фундаментальных проблем больших языковых моделей – они обучены генерировать связный текст, и в ситуации неопределенности склонны производить правдоподобно звучащие, но фактически неверные утверждения. YandexGPT 5.1 Pro научилась лучше определять ситуации, в которых стоит отказаться от ответа вместо того, чтобы сочинять информацию. При одинаковой доле отказов процент неправильных ответов упал с 30% до 16%, а это уже существенное улучшение, которое меняет профиль применимости модели.
Мы рассматриваем модель Pro, которая, по большей части, используется в бизнесе. А в крупных компаниях, необходимо помнить, цена ошибки измеряется не только репутационными потерями, но и вполне конкретными финансовыми последствиями. Консультант в чате поддержки, который иногда выдумывает условия возврата товара или неверно информирует о сроках доставки, создает компании юридические проблемы и недовольных клиентов. Ассистент, который сочиняет несуществующие функции продукта или дает неточные технические характеристики, подрывает доверие к бренду и может привести к претензиям со стороны потребителей. Снижение галлюцинаций вдвое делает модель пригодной для выполнения тех задач, в которых раньше использование нейросетей было слишком рискованным.
YandexGPT 5.1 Pro отлично работает там, где нужна предсказуемость поведения и низкий процент ошибок – в клиентской поддержке, автоматизации документооборота, обработке обращений. А для экспериментов и более творческой работы, в которой нужна вариативность и неожиданность результатов, эксперты Креатор Проджект советуют воспользоваться более свободными моделями. Для корпоративного же использования с четкими требованиями к соблюдению правил и минимизации рисков отлично подойдет эта.

Вместо заключения
Таким образом, модель YandexGPT 5.1 Pro стала эволюционным обновлением, в котором главным достижением стал не рост абстрактных метрик, а повышение надежности модели в реальных сценариях использования. Снижение числа галлюцинаций и умение отказываться от ответа при недостатке данных заметно расширяют область практического применения нейросети – особенно в выполнении тех заданий, где цена ошибки особенно высока. Модель демонстрирует паритет с ведущими закрытыми решениями в ряде тестов и уверенно выигрывает за счет локального контекста. Перечисленное делает ее рациональным выбором для корпоративных систем, ориентированных на стабильность работы и контроль рисков при использовании ИИ-решений.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.





