GPT-5.4 и GPT-5.3. Как эволюционируют кодинговые агенты OpenAI

Недавно представленная компанией OpenAI модель GPT-5.4 объединила в себе аналитические способности версии 5.2 с кодинговыми навыками линейки 5.3 Codex. Получился универсальный инструмент, способный держать в голове высокоуровневую архитектуру проекта и одновременно писать точный код без характерных провалов в производительности.

Те, кто работал с GPT-5.3 Codex, помнят его случайные приступы лени: модель могла внезапно отупеть посреди задачи или выдать откровенно слабый результат на очередной запрос. Новая версия избавилась от этих глюков, и теперь она демонстрирует стабильное качество кода на протяжении длительных сессий работы. Эксперты Креатор Проджект изучили мнения пользователей; многие из юзеров отмечают, что в режиме Fast+XHIGH модель справляется с ежедневными задачами разработки настолько эффективно, что пятичасовой лимит использования теперь действительно имеет значение – раньше до него просто не доходило дело.

Смотрите видео на удобном для вас ресурсе!

От бенчмарков к реальной работе

Традиционные бенчмарки всегда сводили производительность моделей к одной цифре корректности просто потому, что это было удобно для быстрой оценки. Рекомендация для создателей хороших тестов обычно так и звучит: результат должен сводиться к одному интерпретируемому числу. Вероятно, через год-два ситуация изменится, появятся специализированные бенчмарки для агентов, но пока что синтетические тесты плохо отражают реальные ощущения от работы. Агентские задачи – всегда микс из корректности, удобства использования, скорости и стоимости. На первый взгляд GPT-5.4 выглядит в качестве очередного косметического апдейта, но на практике ощущается прогресс по всем четырем параметрам одновременно.

GPT-5.4 в Codex сделал заметный шаг вперед в агентной работе. Если раньше модели часто требовали ручного вмешательства при работе с git, файлами или внешними инструментами, то теперь они гораздо стабильнее справляются с многошаговыми задачами. Полной автономности пока нет, но вмешиваться приходится значительно реже.

Новая версия модели работает значительно быстрее своих предшественников при сохранении качества вывода. GPT-5.3 Codex заложил прочный фундамент для кодинга, но страдал от непредсказуемых провалов (методология была правильной, код получался качественным, однако периодические сбои делали работу нервной). GPT-5.4 взял лучшее от обеих линеек и избавился от их недостатков.

Производительность на бенчмарке CursorBench. Источник: https://www.interconnects.ai/p/gpt-54-is-a-big-step-for-codex

Механическая точность – основная философия

Другое тонкое изменение в доступности GPT-5.4 связано с тем, что модель стала ощущаться более правильной. И тут речь даже не о самом процессе выполнения задач; скорее это вопрос того, как продукт представляет пользователю результаты, запросы и весь процесс взаимодействия, насколько с ней легко погрузиться в работу. GPT-5.4 приобрел толику доступности, которой не хватало предыдущим версиям, хотя модель в своем подходе все-таки остается достаточно холодной и механистичной.

Модели OpenAI в Codex ощущаются дотошными, слегка бесстрастными, но глубоко системными. GPT-5.4 идеально подходит для перемалывания детализированного списка дел с безумной спецификой. Следование инструкциям у этой модели настолько точное, что требуется переучиваться взаимодействовать с ней после работы с более гибкими системами. GPT-5.4 просто делает то, что ему сказали, без лишних интерпретаций и догадок.

Приложение Codex выглядит убедительно; ему не всегда находится применение, но в некоторых случаях оно полностью оправдывает себя. Вероятно, грядут существенные инновации в том, как выглядят подобные приложения. Вполне возможно, что в будущем они станут похожи на Slack, когда нескольким агентам потребуется общаться друг с другом под присмотром оператора.

Доска бенчмарков, сравнивающая GPT-5.4 mini и GPT-5.3 Codex на SWE-Bench Pro, Terminal-Bench 2.0 и OSWorld-Verified. Источник: https://www.aifreeapi.com/en/posts/gpt-5-4-mini-vs-gpt-5-3-codex

Эффективность токенов и управление контекстом

OpenAI нативно предлагает быстрый режим для своих моделей по подписке с очень большими лимитами использования. Пользователи тарифа за 200 долларов в месяц для ChatGPT отмечают, что практически никогда не приближаются к лимитам Codex в быстром режиме с экстравысоким уровнем рассуждений. Причина кроется в особенностях моделирования: релизные блоги OpenAI демонстрируют, что каждая итеративная модель становится существенно более лаконичной в количестве токенов, необходимых для достижения пиковой производительности на бенчмарках. Это мера эффективности рассуждений, и именно к такой двумерной картине бенчмарков движется индустрия.

И, наконец, главное преимущество как GPT-5.4, так и агентских моделей OpenAI в целом заключается в значительно улучшенном управлении контекстом. При регулярном использовании ощущение упирания в контекстную стену или тревога по поводу контекста просто не возникают. Эффективность рассуждений позволяет модели делать намного больше с изначально пустым контекстным окном.

Единственная проблема, проявляющаяся у GPT-5.4 – легкая забывчивость. При передаче модели нескольких задач в одном сообщении вне режима планирования она часто теряет часть из них. Иногда кажется, что система глючит и пытается решить предыдущую проблему вместо текущих. Неясно, что именно в модели или ее обвязке вызывает такое поведение, но попытки постепенно добавлять уточняющие сообщения по ходу работы над задачей часто приводят к рискованным результатам за исключением простейших случаев.

Если же говорить в целом, GPT-5.4 воспринимается в качестве агентской модели, добавившей массу простоты в использовании и агентности к прочному программному фундаменту GPT-5.3 Codex. Она стала большим шагом вперед, объединившим аналитическую мощь старших версий с надежностью кодинга. Интеграция GPT-5.4 Pro напрямую с Codex могла бы стать серьезным преимуществом для OpenAI в агентской гонке.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности