YandexGPT 5.1 Pro. Нейросеть, которая перестала придумывать ответы

Яндекс выпустил обновленную версию своей текстовой модели, и главным изменением тут стал не рост показателей в бенчмарках, а снижение количества выдуманных ответов. YandexGPT 5.1 Pro почти вдвое реже галлюцинирует по сравнению с предыдущей версией – а это, как известно, для коммерческого использования намного важнее, чем туманные метрики качества. Модель научилась отказываться от ответа в ситуациях, когда не уверена в информации, вместо того чтобы генерировать правдоподобную, но ложную версию событий.

Смотрите видео на удобном для вас ресурсе!

Что изменилось в цифрах

В слепом попарном сравнении на широком потоке запросов новая модель побеждает предыдущую YandexGPT 5 Pro в 58% случаев. Другими словами, в большинстве практических сценариев использования обновленная версия выдает более качественные результаты. При сравнении с GPT-4o от OpenAI результат составляет 56% в пользу яндексовской модели. Тут, конечно, о разгромной победе говорить не приходится. Однако паритет с одним из лидеров рынка – показатель уже довольно-таки серьезный. Особенно если брать в расчет время и ресурсы, которые OpenAI вкладывает в развитие своих моделей.

Стандартизированные тесты показывают, что модель обгоняет открытые решения сопоставимой мощности. В тесте MMLU Pro, который проверяет знания из разных областей (не только математика и физика, но и история, литература и пр.) YandexGPT 5.1 Pro набирает 72%. Это столько же, сколько показывает Qwen 3 32b no_think, и заметно больше, чем предыдущая версия с ее 67%. GPT-4o демонстрирует 71%, что практически идентично результату модели от Яндекса. Разница в один процентный пункт находится в пределах статистической погрешности и не дает оснований говорить о явном превосходстве какой-либо из моделей в этой категории.

WikiFacts RU проверяет знание фактов о России – исторических событий, географических особенностей, культурных реалий. Здесь новая модель показывает 74% против 64% у прошлой версии и 74% у GPT-4o. Эти результаты можно назвать ожидаемыми, ведь акцент на локальный контекст при обучении дает результат, который виден в конкретных метриках. GPQA, тест на сложные научные вопросы уровня университетских программ, выдает 46% против прежних 42%. Рост есть, но до лидеров пока далеко – GPT-4o берет здесь 49%, а Qwen 3 32b no_think показывает 51%.

YandexGPT 5.1 Pro доступна в AI Studio Яндекса.

Для начала работы с моделью необходимо создать платежный аккаунт:

Без этого работа с системой невозможна. Демонстрационная версия профессиональной модели отсутствует.

Галлюцинации под контролем

Все генеративные модели иногда выдумывают информацию, когда не знают правильного ответа, и тут винить ни их, ни разработчиков точно не стоит. Это одна из фундаментальных проблем больших языковых моделей – они обучены генерировать связный текст, и в ситуации неопределенности склонны производить правдоподобно звучащие, но фактически неверные утверждения. YandexGPT 5.1 Pro научилась лучше определять ситуации, в которых стоит отказаться от ответа вместо того, чтобы сочинять информацию. При одинаковой доле отказов процент неправильных ответов упал с 30% до 16%, а это уже существенное улучшение, которое меняет профиль применимости модели.

Мы рассматриваем модель Pro, которая, по большей части, используется в бизнесе. А в крупных компаниях, необходимо помнить, цена ошибки измеряется не только репутационными потерями, но и вполне конкретными финансовыми последствиями. Консультант в чате поддержки, который иногда выдумывает условия возврата товара или неверно информирует о сроках доставки, создает компании юридические проблемы и недовольных клиентов. Ассистент, который сочиняет несуществующие функции продукта или дает неточные технические характеристики, подрывает доверие к бренду и может привести к претензиям со стороны потребителей. Снижение галлюцинаций вдвое делает модель пригодной для выполнения тех задач, в которых раньше использование нейросетей было слишком рискованным.

YandexGPT 5.1 Pro отлично работает там, где нужна предсказуемость поведения и низкий процент ошибок – в клиентской поддержке, автоматизации документооборота, обработке обращений. А для экспериментов и более творческой работы, в которой нужна вариативность и неожиданность результатов, эксперты Креатор Проджект советуют воспользоваться более свободными моделями. Для корпоративного же использования с четкими требованиями к соблюдению правил и минимизации рисков отлично подойдет эта.

Вместо заключения

Таким образом, модель YandexGPT 5.1 Pro стала эволюционным обновлением, в котором главным достижением стал не рост абстрактных метрик, а повышение надежности модели в реальных сценариях использования. Снижение числа галлюцинаций и умение отказываться от ответа при недостатке данных заметно расширяют область практического применения нейросети – особенно в выполнении тех заданий, где цена ошибки особенно высока. Модель демонстрирует паритет с ведущими закрытыми решениями в ряде тестов и уверенно выигрывает за счет локального контекста. Перечисленное делает ее рациональным выбором для корпоративных систем, ориентированных на стабильность работы и контроль рисков при использовании ИИ-решений.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

7 комментариев к “YandexGPT 5.1 Pro. Нейросеть, которая перестала придумывать ответы

  1. Современные модели, включая YandexGPT 5.1 Pro, используют методы оптимизации обучения, улучшенные датасеты и механизмы контроля (как системные промты), чтобы лучше признавать свои ограничения и выдавать более точные ответы, а не выдумывать их.

  2. Как пользователь, я вижу в YandexGPT 5.1 Pro полезный инструмент, но также замечаю её ограничения. С одной стороны, модель способна значительно облегчить работу с текстами, с другой — иногда её ответы кажутся слишком стандартными и лишены креативности. Я бы рекомендовал использовать YandexGPT как источник идей или черновиков, но не полагаться на неё полностью в задачах, требующих индивидуального подхода.

  3. Снижение галлюцинаций вдвое делает модель пригодной для выполнения тех задач, в которых раньше использование нейросетей было слишком рискованным.Разработки идут уверено вперед ,все меньше риска и больше качества.

  4. Изначально меня привлекла анонсированная улучшенная реализация, обещающая более точные и осмысленные ответы. Однако, к сожалению, столкнулся с проблемой, которая разочаровала: нейросеть практически перестала придумывать собственные ответы и стала выдавать стандартные, шаблонные ответы или вообще молчать, игнорируя мои вопросы.

  5. Это не «перестала придумывать» это научилась говорить правду. Yandex сделал не просто обновление модели он сделал важный моральный выбор в пользу честности перед технологической эффектностью. Если это направление будет развиваться, YandexGPT может стать эталоном для ответственного ИИ в русскоязычном пространстве. И да это хороший сигнал для всех: ИИ должен помогать, а не вводить в заблуждение.

  6. Разве это нормально, когда искусственный интеллект теряет способность к творчеству? Неужели мы действительно достигли предела его возможностей? Куда делись те дни, когда он генерировал удивительные идеи? Неужели прогресс остановился? И как долго это будет продолжаться? Разве мы не должны искать пути к восстановлению его творческого потенциала?

  7. Жаль что попробовать самую честную модель ИИ YandexGPT 5.1 Pro нельзя без оплаты. Наверное, это сделано специально именно для коммерческого использования?

Обсуждение закрыто.

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности