GPT-5.4 и GPT-5.3. Как эволюционируют кодинговые агенты OpenAI

Недавно представленная компанией OpenAI модель GPT-5.4 объединила в себе аналитические способности версии 5.2 с кодинговыми навыками линейки 5.3 Codex. Получился универсальный инструмент, способный держать в голове высокоуровневую архитектуру проекта и одновременно писать точный код без характерных провалов в производительности.

Те, кто работал с GPT-5.3 Codex, помнят его случайные приступы лени: модель могла внезапно отупеть посреди задачи или выдать откровенно слабый результат на очередной запрос. Новая версия избавилась от этих глюков, и теперь она демонстрирует стабильное качество кода на протяжении длительных сессий работы. Эксперты Креатор Проджект изучили мнения пользователей; многие из юзеров отмечают, что в режиме Fast+XHIGH модель справляется с ежедневными задачами разработки настолько эффективно, что пятичасовой лимит использования теперь действительно имеет значение – раньше до него просто не доходило дело.

Смотрите видео на удобном для вас ресурсе!

От бенчмарков к реальной работе

Традиционные бенчмарки всегда сводили производительность моделей к одной цифре корректности просто потому, что это было удобно для быстрой оценки. Рекомендация для создателей хороших тестов обычно так и звучит: результат должен сводиться к одному интерпретируемому числу. Вероятно, через год-два ситуация изменится, появятся специализированные бенчмарки для агентов, но пока что синтетические тесты плохо отражают реальные ощущения от работы. Агентские задачи – всегда микс из корректности, удобства использования, скорости и стоимости. На первый взгляд GPT-5.4 выглядит в качестве очередного косметического апдейта, но на практике ощущается прогресс по всем четырем параметрам одновременно.

GPT-5.4 в Codex сделал заметный шаг вперед в агентной работе. Если раньше модели часто требовали ручного вмешательства при работе с git, файлами или внешними инструментами, то теперь они гораздо стабильнее справляются с многошаговыми задачами. Полной автономности пока нет, но вмешиваться приходится значительно реже.

Новая версия модели работает значительно быстрее своих предшественников при сохранении качества вывода. GPT-5.3 Codex заложил прочный фундамент для кодинга, но страдал от непредсказуемых провалов (методология была правильной, код получался качественным, однако периодические сбои делали работу нервной). GPT-5.4 взял лучшее от обеих линеек и избавился от их недостатков.

Производительность на бенчмарке CursorBench. Источник: https://www.interconnects.ai/p/gpt-54-is-a-big-step-for-codex

Механическая точность – основная философия

Другое тонкое изменение в доступности GPT-5.4 связано с тем, что модель стала ощущаться более правильной. И тут речь даже не о самом процессе выполнения задач; скорее это вопрос того, как продукт представляет пользователю результаты, запросы и весь процесс взаимодействия, насколько с ней легко погрузиться в работу. GPT-5.4 приобрел толику доступности, которой не хватало предыдущим версиям, хотя модель в своем подходе все-таки остается достаточно холодной и механистичной.

Модели OpenAI в Codex ощущаются дотошными, слегка бесстрастными, но глубоко системными. GPT-5.4 идеально подходит для перемалывания детализированного списка дел с безумной спецификой. Следование инструкциям у этой модели настолько точное, что требуется переучиваться взаимодействовать с ней после работы с более гибкими системами. GPT-5.4 просто делает то, что ему сказали, без лишних интерпретаций и догадок.

Приложение Codex выглядит убедительно; ему не всегда находится применение, но в некоторых случаях оно полностью оправдывает себя. Вероятно, грядут существенные инновации в том, как выглядят подобные приложения. Вполне возможно, что в будущем они станут похожи на Slack, когда нескольким агентам потребуется общаться друг с другом под присмотром оператора.

Доска бенчмарков, сравнивающая GPT-5.4 mini и GPT-5.3 Codex на SWE-Bench Pro, Terminal-Bench 2.0 и OSWorld-Verified. Источник: https://www.aifreeapi.com/en/posts/gpt-5-4-mini-vs-gpt-5-3-codex

Эффективность токенов и управление контекстом

OpenAI нативно предлагает быстрый режим для своих моделей по подписке с очень большими лимитами использования. Пользователи тарифа за 200 долларов в месяц для ChatGPT отмечают, что практически никогда не приближаются к лимитам Codex в быстром режиме с экстравысоким уровнем рассуждений. Причина кроется в особенностях моделирования: релизные блоги OpenAI демонстрируют, что каждая итеративная модель становится существенно более лаконичной в количестве токенов, необходимых для достижения пиковой производительности на бенчмарках. Это мера эффективности рассуждений, и именно к такой двумерной картине бенчмарков движется индустрия.

И, наконец, главное преимущество как GPT-5.4, так и агентских моделей OpenAI в целом заключается в значительно улучшенном управлении контекстом. При регулярном использовании ощущение упирания в контекстную стену или тревога по поводу контекста просто не возникают. Эффективность рассуждений позволяет модели делать намного больше с изначально пустым контекстным окном.

Единственная проблема, проявляющаяся у GPT-5.4 – легкая забывчивость. При передаче модели нескольких задач в одном сообщении вне режима планирования она часто теряет часть из них. Иногда кажется, что система глючит и пытается решить предыдущую проблему вместо текущих. Неясно, что именно в модели или ее обвязке вызывает такое поведение, но попытки постепенно добавлять уточняющие сообщения по ходу работы над задачей часто приводят к рискованным результатам за исключением простейших случаев.

Если же говорить в целом, GPT-5.4 воспринимается в качестве агентской модели, добавившей массу простоты в использовании и агентности к прочному программному фундаменту GPT-5.3 Codex. Она стала большим шагом вперед, объединившим аналитическую мощь старших версий с надежностью кодинга. Интеграция GPT-5.4 Pro напрямую с Codex могла бы стать серьезным преимуществом для OpenAI в агентской гонке.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

3 комментария к “GPT-5.4 и GPT-5.3. Как эволюционируют кодинговые агенты OpenAI

  1. Сам потыкал обе версии на задачах: Генерация REST API. Раньше модели выдавали базовый скелет, но без валидации и обработки ошибок. GPT 5.4 сгенерировал контроллер, middleware для авторизации, добавил обработку 404 и 500. Почти готовый модуль! Отладка сложного бага.
    Скинул лог с ошибкой в многопоточном коде. GPT 5.3 указал на возможный race condition, предложил переписать синхронизацию. Проверил и это сработало. Адаптация кода под новые стандарты.
    Нужно было перевести старый JS код на ES14 (условно). GPT 5.4 учёл стилистику проекта, заменил циклы на современные конструкции, обновил импорты. Экономия времени ощутима. Особенно радует, что модели реже «галлюцинируют» — код стал стабильнее, реже требует ручного исправления.

  2. «Благодаря» такой технической эволюции компании сокращают найм джуниоров, а также страдают фрилансеры — у них уменьшаются заказы. Теперь в сфере ИИ будут работать только крупные программисты. Мне прям интересно где теперь начинающие специалисты будут получать опыт. Некоторые советуют начинающим использовать в качестве наставника ИИ. Но мне кажется это не надёжный способ для получения хорошего опыт.

  3. В целом, развитие кодинговых агентов OpenAI свидетельствует о стремлении сделать ИИ-помощников максимально полезными и безопасными для специалистов различного уровня квалификации, а их постепенная эволюция обещает еще большие возможности в ближайшем будущем.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности