OpenAI представила GPT-4.1: революция в программировании

OpenAI представила GPT-4.1: революция в программировании

В понедельник компания OpenAI выпустила новое семейство моделей под названием GPT-4.1. Да, «4.1» — как будто номенклатура компании и без того недостаточно запутана.

Есть GPT-4.1, GPT-4.1 mini и GPT-4.1 nano, которые, по словам OpenAI, «превосходно» справляются с кодированием и промтами. Модели, доступные через API OpenAI, но не ChatGPT, имеют контекстное окно в 1 миллион токенов, то есть они могут воспринимать примерно 750 000 слов за один раз (больше, чем в «Войне и мире»).

GPT-4.1 выходит на рынок, когда конкуренты OpenAI, такие как Google и Anthropic, наращивают усилия по созданию сложных моделей программирования. Недавно выпущенная Google модель Gemini 2.5 Pro, которая также имеет контекстное окно в 1 миллион токенов, занимает высокие позиции в популярных тестах на программирование. То же самое можно сказать о модели Claude 3.7 Sonnet от Anthropic и обновлённой модели V3 от китайского стартапа DeepSeek.

Цель многих технологических гигантов, в том числе OpenAI, — обучить модели ИИ-кодирования, способные выполнять сложные задачи в области разработки программного обеспечения. Великое стремление OpenAI — создать «агентного инженера-программиста», как выразилась финансовый директор Сара Фрайар во время технологического саммита в Лондоне в прошлом месяце. Компания утверждает, что её будущие модели смогут программировать целые приложения от начала до конца, выполняя такие задачи, как контроль качества, поиск ошибок и написание документации.

GPT-4.1 — это шаг в этом направлении.

«Мы оптимизировали GPT-4.1 для использования в реальных условиях на основе прямых отзывов, чтобы улучшить его в тех областях, которые больше всего волнуют разработчиков: написание кода для внешнего интерфейса, внесение меньшего количества лишних правок, надёжное соблюдение форматов, соответствие структуре и порядку ответов, последовательное использование инструментов и многое другое, — сообщил TechCrunch представитель OpenAI по электронной почте. — Эти улучшения позволяют разработчикам создавать агентов, которые значительно лучше справляются с реальными задачами в области разработки программного обеспечения».

OpenAI утверждает, что полная модель GPT-4.1 превосходит модели GPT-4o и GPT-4o mini в тестах на программирование, в том числе в SWE-bench. GPT-4.1 mini и nano считаются более эффективными и быстрыми за счёт некоторой потери точности. OpenAI заявляет, что GPT-4.1 nano — самая быстрая и дешёвая модель из всех.

GPT-4.1 стоит 2 доллара за миллион входных токенов и 8 долларов за миллион выходных токенов. GPT-4.1 mini стоит 0,40 доллара за миллион входных токенов и 1,60 доллара за миллион выходных токенов, а GPT-4.1 nano стоит 0,10 доллара за миллион входных токенов и 0,40 доллара за миллион выходных токенов.

Согласно результатам внутреннего тестирования OpenAI, GPT-4.1, который может генерировать больше токенов за раз, чем GPT-4o (32 768 против 16 384), набрал от 52% до 54,6% баллов на SWE-bench Verified, проверенном человеком подмножестве SWE-bench. (В блоге OpenAI отмечается, что некоторые решения задач SWE-bench Verified не могут быть реализованы в их инфраструктуре, отсюда и разброс баллов.) Эти показатели немного ниже результатов, полученных Google и Anthropic для Gemini 2.5 Pro (63,8%) и Claude 3.7 Sonnet (62,3%) соответственно в том же тесте.

В ходе отдельной оценки OpenAI протестировала GPT-4.1 с помощью Video-MME, которая предназначена для измерения способности модели «понимать» содержание видео. GPT-4.1 достигла рекордной точности в 72% в категории «длинные видео без субтитров», утверждает OpenAI.

Хотя GPT-4.1 достаточно хорошо справляется с тестами и имеет более свежий «набор знаний», что позволяет ему лучше ориентироваться в текущих событиях (до июня 2024 года), важно помнить, что даже некоторые из лучших современных моделей испытывают трудности с задачами, которые не вызвали бы затруднений у экспертов. Например, многие исследования показали, что модели, генерирующие код, часто не могут исправить и даже создают уязвимости и ошибки в системе безопасности.

OpenAI также признаёт, что GPT-4.1 становится менее надёжным (то есть с большей вероятностью допускает ошибки) по мере увеличения количества входных токенов. В одном из собственных тестов компании, OpenAI-MRCR, точность модели снизилась примерно с 84% при 8000 токенов до 50% при 1 миллионе токенов. GPT-4.1 также, по словам компании, был более «дословным», чем GPT-4o, и иногда требовал более конкретных и явных подсказок.

Источник: TechCrunch

Интересно? Поделиться:

4 комментария для “OpenAI представила GPT-4.1: революция в программировании

  1. Это говорит о лучшем компромиссе между интеллектом и скоростью по сравнению с GPT-4o. В другом анализе, проведенном сайтом Artificial Analysis, качество GPT-4.1 выше среднего: оценка MMLU составляет 0,806, а индексинтеллектуальности по всем оценкам — 52.

  2. OpenAI активно готовится к выходу GPT-5, постепенно отказываясь от своих старых нейросетей и заменяя их более совершенными версиями. Компания OpenAI также заявила, что доступ к тестовой версии модели GPT-4.5 через API будет закрыт 14 июля, так как LLM GPT-4.1 не отличается от нее по производительности практически во всех параметрах, при этом является более экономичной ввиду сниженной стоимости использования.

  3. GPT-4.1 от OpenAI — это реально мощный апгрейд! Особенно круто, что теперь модель может обрабатывать огромные объемы текста и кода — до миллиона токенов. Это значит, что можно загружать целые проекты или большие документы, и она всё понимает без потерь контекста.

    Особенно радует, что GPT-4.1 стал работать быстрее и дешевле — отличная новость для разработчиков. Плюс, улучшения в программировании — это шаг вперёд для всех, кто использует ИИ в кодинге. Интересно будет посмотреть, какие новые инструменты появятся на основе этой модели!

  4. GPT-4.1 — это вообще какой-то космос. Он стал ещё умнее, быстрее и, главное, меньше тупит в простых вещах, чем предыдущие версии. Понимает контекст лучше, шутки ловит, может поддержать разговор так, что не сразу поймёшь, бот это или человек. Иногда аж крипово, насколько он в тему отвечает. Но в целом — огонь, прям реально ощущается, что технология взрослеет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *