Обзор GPT-5.2. Нейросеть, ставшая рабочим инструментом

01.04.202601.04.2026

Источник: https://www.opensourceforu.com/2025/12/openai-races-to-launch-gpt-5-2-in-response-to-gemini-3/

OpenAI выпустила GPT-5.2 – серию моделей, которые сосредоточены на поистине профессиональной работе с различными областями знания. Разработчики не скрывают амбиций: средний пользователь ChatGPT Enterprise уже экономит от 40 до 60 минут в день благодаря ИИ, активные пользователи говорят о 10 часах в неделю. Новая версия нацелена на то, чтобы эта экономия стала еще заметнее. Модель научили лучше создавать электронные таблицы, готовить презентации, писать код, работать с изображениями и справляться со сложными многоэтапными проектами. На самом деле, сегодня эта нейросеть для многих юзеров стала универсальным помощником.

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео Дзен RuTube ОК

Профессиональные задачи, реальная экономия

GPT-5.2 приходит в трех вариантах: Instant для быстрых повседневных задач, Thinking для углубленной работы с кодом и документами, Pro для особо сложных вопросов, в которых приоритет отдан не скорости, а качеству. Все три версии уже доступны в платных тарифах ChatGPT и через API для разработчиков. Разделение логичное, ведь одно дело быстро ответить на письмо, и другое – провести глубокий анализ финансовой модели или отладить многослойный код.

Главная ставка OpenAI – бенчмарк GDPval, который проверяет модели на четко определенных задачах из 44 профессий в 9 ведущих отраслях. GPT-5.2 Thinking стала первой моделью компании, которая работает на уровне отраслевых экспертов или превосходит их. По оценкам специалистов, модель превзошла или показала сопоставимые результаты с профессионалами в 70,9 % случаев. Задачи охватывали создание презентаций по продажам, бухгалтерских таблиц, графиков неотложной помощи, производственных схем.

Любопытная деталь: GPT-5.2 Thinking справлялась с этими задачами более чем в 11 раз быстрее экспертов-людей и меньше чем за 1 % их стоимости. Разумеется, эти цифры предполагают человеческий надзор, в этом отношении нет ничего нового. Один из судей GDPval отметил по поводу особенно удачного результата: создается впечатление, что работа была выполнена профессиональным человеческим персоналом, хотя в одном из выходов все еще нужно было исправить несколько мелких ошибок.

На внутреннем бенчмарке задач для младших аналитиков инвестиционных банков – построение трехкомпонентной модели для компании из списка Fortune 500 или модели выкупа с привлечением заемных средств – средний балл GPT-5.2 Thinking вырос с 59,1 % до 68,4 % по сравнению с GPT-5.1. Прирост в 9,3 % может показаться скромным, но для выполнения задач в финансовой сфере, в которой крайне важна точность форматирования и ссылок, этот шаг довольно-таки ощутим.

Код, фронтенд и новые рекорды

В программировании GPT-5.2 Thinking установила новый стандарт на SWE-bench Pro, набрав 55,6 %. SWE-bench Pro представляет собой тест реальных задач программной инженерии, который проверяет четыре языка и старается быть устойчивым к загрязнению данными. На более известном SWE-bench Verified модель достигла 80 %, и это новый рекорд для OpenAI. Актуальная система умеет отлаживать производственный код более надежно, запрашивать новые функции, осуществлять рефакторинг больших кодовых баз, а также выпускать исправления от начала до конца с меньшим количеством ручных вмешательств.

Модель, сильная в математике

GPT-5.2 Pro достигла 93,2 % на тесте GPQA Diamond – выпускном уровне бенчмарка Google-proof Q&A, а GPT-5.2 Thinking показала 92,4 %. На FrontierMath, оценке по математике экспертного уровня, GPT-5.2 Thinking установила новый стандарт, решив 40,3 % задач. В недавней работе с GPT-5.2 Pro исследователи изучали открытый вопрос в теории статистического обучения, и модель предложила доказательство, которое впоследствии проверялось авторами и рассматривалось внешними экспертами.

На ARC-AGI-1 GPT-5.2 стала первой моделью, преодолевшей порог в 90 %, улучшив результат с 87 %, достигнутых в превью модели o3 в прошлом году. При этом стоимость достижения этой производительности снизилась примерно в 390 раз.

Тестировщики модели отмечали немало практических изменений. К примеру, один из них сообщил о том, что GPT-5.2 позволил полностью изменить архитектуру, объединив хрупкую многоагентную систему в единый мега-агент с более чем 20 инструментами. Самое лучшее, конечно, заключается в том, что это просто работает. Мега-агент быстрее, умнее и при этом намного проще в обслуживании. Значительно более низкая задержка, гораздо более эффективный вызов инструментов, и больше не нужны обширные системные промпты, потому что 5.2 отлично работает даже с простым однострочным промптом.

Таким образом, как отмечают эксперты команды Креатор Проджект, модель GPT-5.2 стала шагом в сторону специализации моделей под профессиональное использование. OpenAI честно признает, что дальше тоже планируются улучшения, и это лишь один из шагов; пока что же совершенство еще не достигнуто. Известные проблемы в работе модели наподобие чрезмерных отказов остаются, тут никуда не денешься, и разработчики сосредоточены на том, чтобы реализовать изменения как следует. Какими эти изменения будут дальше, покажут дальнейшие релизы.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.

Интересно? Поделиться:

Добавить комментарий Отменить ответ

Рекомендуем почитать

Опасная вежливость: исследование измерило вред привычки ИИ льстить и соглашаться

Опасная вежливость: исследование измерило вред привычки ИИ льстить и соглашаться

Хотя вокруг склонности чат-ботов льстить пользователям и подтверждать их уже существующие убеждения — явления, также известного как «ИИ-подхалимаж» — было…

Шедеврум: нейросеть от Яндекса

Шедеврум: нейросеть от Яндекса с элементами соцсети

Как известно, Яндекс представляет на рынке генеративных нейросетей собственное решение – Шедеврум, приложение на базе моделей YandexART и YandexGPT. Платформа…

Главная страница Sharly AI

Sharly AI. Нейросеть для обработки документов с широким спектром функций

Сегодня имеется множество сервисов, предназначенных для работы с документами. Большая часть из них обещает «поговорить с PDF» и делает ровно…

Главная страница ChatPDF

AI-чтение документов: разбор сервиса ChatPDF

Идея, на основе которой был создан сервис ChatPDF, одновременно простая и очевидная. Есть PDF, длинный, скучный, набитый юридическим или академическим…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности