Обзор GPT Image 1.5. Редактирование изображений, которое перестает быть лотереей

OpenAI выпустила новую версию ChatGPT Image, работающую на флагманской модели генерации изображений GPT Image 1.5. Модель доступна всем пользователям, в том числе и тем, кто работает на бесплатном тарифе. Она также появилась в API под именем gpt-image-1.5. Основной акцент разработчики сделали на точности правок и скорости работы; изображения генерируются до четырех раз быстрее предыдущей версии. Параллельно с моделью OpenAI представила новую функцию, которая превращает чат-бот в подобие творческой студии с предустановленными стилями и трендовыми промптами.

Смотрите видео на удобном для вас ресурсе!

Основные особенности

Главное обещание GPT Image 1.5 звучит просто: когда пользователь запрашивает изменения в загруженном изображении, модель меняет только то, что было указано, сохраняя освещение, композицию и внешний вид людей неизменными. Так что на выходе получаемые результаты в действительности соответствуют желаемому — тому, что описывает пользователь. По крайней мере, в большинстве случаев, как указывают сами пользователи, это на самом деле так. Что ж, очень похоже на решение одной из главных проблем AI-генерации: когда просишь добавить чашку кофе на стол, а модель перерисовывает весь стол, фон и человека заодно.

Редактирование без сюрпризов

Нейросеть справляется с различными типами редактирования: разного рода элементы можно добавлять, смешивать, удалять и т.д. Модель получила способность выполнять целевые правки с исключительной точностью, сохраняя критически важные детали на протяжении нескольких поколений и итераций. Теперь система может добавлять или удалять объекты, бесшовно смешивать элементы, виртуально примерять одежду или прически, применять стилистические преобразования, но при этом сохраняя согласованность освещения, композиции, лиц, логотипов и общей целостности сцены.

Обновленная модель оказалась на самом деле креативной, но при этом она сохраняет нужный стиль и правильность генерации отдельных элементов в течение нескольких итераций. Следование предоставленным инструкциям является одним из главных плюсов обозреваемой нейросети, причем это касается и осуществления точных правок, и создания совершенно новых композиций.

Для API-версии OpenAI обещает те же улучшения: более последовательное сохранение фирменных логотипов и ключевых визуальных элементов при редактировании делает модель подходящей для маркетинговой работы вроде создания графики и логотипов. Команды электронной коммерции могут генерировать полные каталоги изображений продуктов (варианты, сцены, углы) из одного исходного изображения. Входные и выходные данные изображений теперь на 20 % дешевле в GPT Image 1.5 по сравнению с GPT Image 1, что позволяет генерировать и итерировать больше изображений с тем же бюджетом.

Текст, скорость и новый интерфейс

Модель сделала шаг вперед в рендеринге текста, получив способность обрабатывать более плотный и мелкий текст. Это особенно важно для создания инфографики, образовательных материалов, презентаций – любого материала, в котором важен текст. В одном из примеров модель корректно отобразила газетную статью с сохранением всего содержимого, форматирования и чисел в естественной газетной верстке.

Скорость генерации выросла в четыре раза по сравнению с предыдущей версией. Типичное время завершения составляет от 10 до 30 секунд в зависимости от сложности. Отметим, что достаточно быстрая генерация изображений также доступна на портале Креатор Проджект, где работает модель DALL-E 3.

Параллельно с обновлениями компания представила новый интерфейс для работы с изображениями, что тоже давно ожидалось аудиторией. Фиджи Симо, CEO по приложениям в компании, объяснила логику изменений: для многих людей первый опыт работы с ChatGPT связан с превращением текстового промпта в картинку. Человек видит, на что способна технология, но чат-интерфейс изначально не проектировался для этого. Новые экраны просмотра и редактирования изображений упрощают создание визуала, который соответствует видению пользователя, или получение вдохновения из трендовых промптов и предустановленных фильтров.

Коммерческое использование изображений, созданных с помощью модели, разрешено, но пользователи несут ответственность за контент. Действуют ограничения на изображение реальных людей без соответствующих прав, на контент, разжигающий ненависть и т.д.

Заключение

GPT Image 1.5 позволяет постепенно перейти от «генеративного AI» к «агентному дизайну», в рамках которого модель не просто создает картинки, но становится надежным инструментом для итеративной творческой работы. Улучшенный рендеринг текста, ускорение генерации, снижение стоимости API и новый интерфейс формируют экосистему, в которой визуальное творчество становится частью повседневной работы, а не отдельным техническим экспериментом. Инструмент начинает играть роль полноценной студии, ведь здесь как идея, так и финальное изображение собираются в едином пространстве.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

4 комментария к “Обзор GPT Image 1.5. Редактирование изображений, которое перестает быть лотереей

  1. Решил протестировать демоверсию и вот что заметил:
    1. Удаление объектов. Попросил убрать рекламный баннер с фото городской улицы. Раньше такие задачи требовали фотошопа, а тут GPT Image 1.5 заполнила пустое место реалистичными зданиями почти без следов вмешательства.
    2. Изменение стиля. Преобразовал обычное фото в акварельный рисунок. Результат получился мягче, чем у аналогов, с сохранением ключевых деталей.
    3. Добавление элементов. Попросил добавить кота на скамейку. Кот вышел живым, с правильной перспективой и освещением, будто всегда там был.
    4. Коррекция цвета и освещения. У фото с пасмурного дня включил солнечный свет. Контраст, цвета, тени изменились естественно, без пластмассового эффекта.
    По сравнению с DALL-E, MidJourney или Stable Diffusion, GPT Image 1.5 выигрывает в двух вещах:
    Понятность запросов. Меньше нужно «жонглировать» формулировками, чтобы получить нужный результат. Интеграция с текстом. Если работаешь с контентом, где изображение и описание должны идеально сочетаться (например, для соцсетей), GPT Image 1.5 справляется на ура. Конечно, конкуренты тоже развиваются, но 1.5-версия явно сделала шаг вперёд в предсказуемости именно это и подразумевается под перестало быть лотереей.

  2. Наконец-то! GPT Image 1.5 действительно меняет правила игры в редактировании изображений. Больше никаких случайных результатов и разочарований. Этот инструмент позволяет добиться именно того, что ты задумал, с удивительной точностью и контролем. Прощай, лотерея с редактированием, привет, предсказуемый и качественный результат!

  3. GPT Image 1.5 — это важный шаг вперёд в развитии ИИ-редактирования изображений, потому что он меняет сам подход: от генерации «с нуля» к точечному управляемому редактированию.

  4. Отличный разбор — особенно точно подмечена главная идея: редактирование перестаёт быть «угадайкой». GPT Image 1.5 реально делает шаг в сторону предсказуемости — когда правишь конкретный объект, остальная сцена не разваливается, как это часто было раньше

Обсуждение закрыто.

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности