Обзор GPT Image 1.5. Редактирование изображений, которое перестает быть лотереей

OpenAI выпустила новую версию ChatGPT Image, работающую на флагманской модели генерации изображений GPT Image 1.5. Модель доступна всем пользователям, в том числе и тем, кто работает на бесплатном тарифе. Она также появилась в API под именем gpt-image-1.5. Основной акцент разработчики сделали на точности правок и скорости работы; изображения генерируются до четырех раз быстрее предыдущей версии. Параллельно с моделью OpenAI представила новую функцию, которая превращает чат-бот в подобие творческой студии с предустановленными стилями и трендовыми промптами.

Смотрите видео на удобном для вас ресурсе!

Основные особенности

Главное обещание GPT Image 1.5 звучит просто: когда пользователь запрашивает изменения в загруженном изображении, модель меняет только то, что было указано, сохраняя освещение, композицию и внешний вид людей неизменными. Так что на выходе получаемые результаты в действительности соответствуют желаемому — тому, что описывает пользователь. По крайней мере, в большинстве случаев, как указывают сами пользователи, это на самом деле так. Что ж, очень похоже на решение одной из главных проблем AI-генерации: когда просишь добавить чашку кофе на стол, а модель перерисовывает весь стол, фон и человека заодно.

Редактирование без сюрпризов

Нейросеть справляется с различными типами редактирования: разного рода элементы можно добавлять, смешивать, удалять и т.д. Модель получила способность выполнять целевые правки с исключительной точностью, сохраняя критически важные детали на протяжении нескольких поколений и итераций. Теперь система может добавлять или удалять объекты, бесшовно смешивать элементы, виртуально примерять одежду или прически, применять стилистические преобразования, но при этом сохраняя согласованность освещения, композиции, лиц, логотипов и общей целостности сцены.

Обновленная модель оказалась на самом деле креативной, но при этом она сохраняет нужный стиль и правильность генерации отдельных элементов в течение нескольких итераций. Следование предоставленным инструкциям является одним из главных плюсов обозреваемой нейросети, причем это касается и осуществления точных правок, и создания совершенно новых композиций.

Для API-версии OpenAI обещает те же улучшения: более последовательное сохранение фирменных логотипов и ключевых визуальных элементов при редактировании делает модель подходящей для маркетинговой работы вроде создания графики и логотипов. Команды электронной коммерции могут генерировать полные каталоги изображений продуктов (варианты, сцены, углы) из одного исходного изображения. Входные и выходные данные изображений теперь на 20 % дешевле в GPT Image 1.5 по сравнению с GPT Image 1, что позволяет генерировать и итерировать больше изображений с тем же бюджетом.

Текст, скорость и новый интерфейс

Модель сделала шаг вперед в рендеринге текста, получив способность обрабатывать более плотный и мелкий текст. Это особенно важно для создания инфографики, образовательных материалов, презентаций – любого материала, в котором важен текст. В одном из примеров модель корректно отобразила газетную статью с сохранением всего содержимого, форматирования и чисел в естественной газетной верстке.

Скорость генерации выросла в четыре раза по сравнению с предыдущей версией. Типичное время завершения составляет от 10 до 30 секунд в зависимости от сложности. Отметим, что достаточно быстрая генерация изображений также доступна на портале Креатор Проджект, где работает модель DALL-E 3.

Параллельно с обновлениями компания представила новый интерфейс для работы с изображениями, что тоже давно ожидалось аудиторией. Фиджи Симо, CEO по приложениям в компании, объяснила логику изменений: для многих людей первый опыт работы с ChatGPT связан с превращением текстового промпта в картинку. Человек видит, на что способна технология, но чат-интерфейс изначально не проектировался для этого. Новые экраны просмотра и редактирования изображений упрощают создание визуала, который соответствует видению пользователя, или получение вдохновения из трендовых промптов и предустановленных фильтров.

Коммерческое использование изображений, созданных с помощью модели, разрешено, но пользователи несут ответственность за контент. Действуют ограничения на изображение реальных людей без соответствующих прав, на контент, разжигающий ненависть и т.д.

Заключение

GPT Image 1.5 позволяет постепенно перейти от «генеративного AI» к «агентному дизайну», в рамках которого модель не просто создает картинки, но становится надежным инструментом для итеративной творческой работы. Улучшенный рендеринг текста, ускорение генерации, снижение стоимости API и новый интерфейс формируют экосистему, в которой визуальное творчество становится частью повседневной работы, а не отдельным техническим экспериментом. Инструмент начинает играть роль полноценной студии, ведь здесь как идея, так и финальное изображение собираются в едином пространстве.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

2 комментария к “Обзор GPT Image 1.5. Редактирование изображений, которое перестает быть лотереей

  1. Решил протестировать демоверсию и вот что заметил:
    1. Удаление объектов. Попросил убрать рекламный баннер с фото городской улицы. Раньше такие задачи требовали фотошопа, а тут GPT Image 1.5 заполнила пустое место реалистичными зданиями почти без следов вмешательства.
    2. Изменение стиля. Преобразовал обычное фото в акварельный рисунок. Результат получился мягче, чем у аналогов, с сохранением ключевых деталей.
    3. Добавление элементов. Попросил добавить кота на скамейку. Кот вышел живым, с правильной перспективой и освещением, будто всегда там был.
    4. Коррекция цвета и освещения. У фото с пасмурного дня включил солнечный свет. Контраст, цвета, тени изменились естественно, без пластмассового эффекта.
    По сравнению с DALL-E, MidJourney или Stable Diffusion, GPT Image 1.5 выигрывает в двух вещах:
    Понятность запросов. Меньше нужно «жонглировать» формулировками, чтобы получить нужный результат. Интеграция с текстом. Если работаешь с контентом, где изображение и описание должны идеально сочетаться (например, для соцсетей), GPT Image 1.5 справляется на ура. Конечно, конкуренты тоже развиваются, но 1.5-версия явно сделала шаг вперёд в предсказуемости именно это и подразумевается под перестало быть лотереей.

  2. Наконец-то! GPT Image 1.5 действительно меняет правила игры в редактировании изображений. Больше никаких случайных результатов и разочарований. Этот инструмент позволяет добиться именно того, что ты задумал, с удивительной точностью и контролем. Прощай, лотерея с редактированием, привет, предсказуемый и качественный результат!

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности