Обзор GPT-5.2. Нейросеть, ставшая рабочим инструментом

OpenAI выпустила GPT-5.2 – серию моделей, которые сосредоточены на поистине профессиональной работе с различными областями знания. Разработчики не скрывают амбиций: средний пользователь ChatGPT Enterprise уже экономит от 40 до 60 минут в день благодаря ИИ, активные пользователи говорят о 10 часах в неделю. Новая версия нацелена на то, чтобы эта экономия стала еще заметнее. Модель научили лучше создавать электронные таблицы, готовить презентации, писать код, работать с изображениями и справляться со сложными многоэтапными проектами. На самом деле, сегодня эта нейросеть для многих юзеров стала универсальным помощником.

Смотрите видео на удобном для вас ресурсе!

Профессиональные задачи, реальная экономия

GPT-5.2 приходит в трех вариантах: Instant для быстрых повседневных задач, Thinking для углубленной работы с кодом и документами, Pro для особо сложных вопросов, в которых приоритет отдан не скорости, а качеству. Все три версии уже доступны в платных тарифах ChatGPT и через API для разработчиков. Разделение логичное, ведь одно дело быстро ответить на письмо, и другое – провести глубокий анализ финансовой модели или отладить многослойный код.

Главная ставка OpenAI – бенчмарк GDPval, который проверяет модели на четко определенных задачах из 44 профессий в 9 ведущих отраслях. GPT-5.2 Thinking стала первой моделью компании, которая работает на уровне отраслевых экспертов или превосходит их. По оценкам специалистов, модель превзошла или показала сопоставимые результаты с профессионалами в 70,9 % случаев. Задачи охватывали создание презентаций по продажам, бухгалтерских таблиц, графиков неотложной помощи, производственных схем.

Любопытная деталь: GPT-5.2 Thinking справлялась с этими задачами более чем в 11 раз быстрее экспертов-людей и меньше чем за 1 % их стоимости. Разумеется, эти цифры предполагают человеческий надзор, в этом отношении нет ничего нового. Один из судей GDPval отметил по поводу особенно удачного результата: создается впечатление, что работа была выполнена профессиональным человеческим персоналом, хотя в одном из выходов все еще нужно было исправить несколько мелких ошибок.

На внутреннем бенчмарке задач для младших аналитиков инвестиционных банков – построение трехкомпонентной модели для компании из списка Fortune 500 или модели выкупа с привлечением заемных средств – средний балл GPT-5.2 Thinking вырос с 59,1 % до 68,4 % по сравнению с GPT-5.1. Прирост в 9,3 % может показаться скромным, но для выполнения задач в финансовой сфере, в которой крайне важна точность форматирования и ссылок, этот шаг довольно-таки ощутим.

Код, фронтенд и новые рекорды

В программировании GPT-5.2 Thinking установила новый стандарт на SWE-bench Pro, набрав 55,6 %. SWE-bench Pro представляет собой тест реальных задач программной инженерии, который проверяет четыре языка и старается быть устойчивым к загрязнению данными. На более известном SWE-bench Verified модель достигла 80 %, и это новый рекорд для OpenAI. Актуальная система умеет отлаживать производственный код более надежно, запрашивать новые функции, осуществлять рефакторинг больших кодовых баз, а также выпускать исправления от начала до конца с меньшим количеством ручных вмешательств.

Модель, сильная в математике

GPT-5.2 Pro достигла 93,2 % на тесте GPQA Diamond – выпускном уровне бенчмарка Google-proof Q&A, а GPT-5.2 Thinking показала 92,4 %. На FrontierMath, оценке по математике экспертного уровня, GPT-5.2 Thinking установила новый стандарт, решив 40,3 % задач. В недавней работе с GPT-5.2 Pro исследователи изучали открытый вопрос в теории статистического обучения, и модель предложила доказательство, которое впоследствии проверялось авторами и рассматривалось внешними экспертами.

На ARC-AGI-1 GPT-5.2 стала первой моделью, преодолевшей порог в 90 %, улучшив результат с 87 %, достигнутых в превью модели o3 в прошлом году. При этом стоимость достижения этой производительности снизилась примерно в 390 раз.

Тестировщики модели отмечали немало практических изменений. К примеру, один из них сообщил о том, что GPT-5.2 позволил полностью изменить архитектуру, объединив хрупкую многоагентную систему в единый мега-агент с более чем 20 инструментами. Самое лучшее, конечно, заключается в том, что это просто работает. Мега-агент быстрее, умнее и при этом намного проще в обслуживании. Значительно более низкая задержка, гораздо более эффективный вызов инструментов, и больше не нужны обширные системные промпты, потому что 5.2 отлично работает даже с простым однострочным промптом.

Таким образом, как отмечают эксперты команды Креатор Проджект, модель GPT-5.2 стала шагом в сторону специализации моделей под профессиональное использование. OpenAI честно признает, что дальше тоже планируются улучшения, и это лишь один из шагов; пока что же совершенство еще не достигнуто. Известные проблемы в работе модели наподобие чрезмерных отказов остаются, тут никуда не денешься, и разработчики сосредоточены на том, чтобы реализовать изменения как следует. Какими эти изменения будут дальше, покажут дальнейшие релизы.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности