Недавно OpenAI снова подняла планку в мире искусственного интеллекта, добавив в GPT-4o улучшенные возможности генерации изображений. Это не просто очередной апгрейд, а настоящий рывок вперед, который уже всколыхнул интернет волной творчества в стиле студии Ghibli и не только. Новая фича в ChatGPT позволяет создавать картинки, которые легко соперничают с работами специализированных платформ, и все это прямо в чате за скромные 20 долларов в месяц по подписке Plus.
Как функционирует опция генерации картинок
Одной из сильных сторон модели является ее способность прорабатывать детали. Представим задачу: ночная городская улица с неоновыми вывесками, людьми на тротуарах, автомобилями на дороге и уличными торговцами. Если запросить гиперреалистичную картинку с акцентом на освещение, отражения на мокром асфальте и яркими вывесками, GPT-4o выдает тщательно проработанную сцену. Неон здесь выглядит выразительно, но не перегружает изображение, движение толпы передано естественно, а отражения на асфальте создают ощущение недавнего дождя. Впрочем, не обошлось без нюансов: иногда заметны небольшие отклонения в перспективе или излишне театральное освещение. Однако эти детали вряд ли существенно повлияют на общее восприятие.
В сравнении с конкурентами (Flux, Reve), GPT-4o удается успешно сохранять гармонию между реализмом и гибкостью изображения. Например, как указывают пользователи, в определенных задачах Flux может уступать в обработке изображений, Reve — выдавать слишком идеалистические картинки. В данной ситуации OpenAI сохраняет стабильное качество. При этом модель легко адаптируется: если результат не устраивает, можно сменить стиль — например, на аниме или живопись маслом, — и получить обновленное изображение. Дополнительные правки тоже не проблема: запросы вроде “добавить пару прохожих” или “изменить освещение” выполняются быстро и точно.
Оригинальность и качество изображений определенно заслуживают внимания. Например, вот картинка, созданная по промпту «Фото в стиле папарацци. Карл Маркс торопливо шагает через парковку торгового центра Mall of America, оглядываясь через плечо с удивленным выражением лица, пытаясь уклониться от камеры. В руках у него несколько глянцевых пакетов с покупками, набитых люксовыми товарами. Пальто развевается на ветру, один из пакетов раскачивается. Размытый фон с машинами и светящимся входом в торговый центр подчеркивает движение. Вспышка камеры создает частичное засвечивание, добавляя изображению хаотичную атмосферу таблоидов«:
Модель хорошо генерирует как людей и городские ландшафты, так и природу. Еще одно достаточно яркое и красочное изображение:
Не менее полезна возможность работать с пропорциями. По умолчанию изображения часто генерируются квадратными, но модель поддерживает форматы вроде 16:9 или 9:16, что удобно для создания фонов для экранов или мобильных обоев. Функция добавления текста тоже присутствует — она ограничена простыми фразами, такими как “С днем рождения”, но эти запросы выполняет аккуратно и без лишних изысков.
Особенно генератор изображений от OpenAI прославился своим умением создавать картинки в стиле Studio Ghibli:
Доступна ли функция бесплатным пользователям?
Хотя OpenAI пока не выступила с официальным анонсом на эту тему, еще в одном из прошлых сообщений на платформе X глава компании Сэм Альтман затронул вопрос ограничений для бесплатных пользователей. В частности, он предположил, что тем, кто пользуется сервисом без подписки, могут установить лимит в три генерации изображений в сутки. Это, по всей видимости, связано с желанием компании сбалансировать нагрузку на серверы и предоставить базовый доступ к новой функции, одновременно стимулируя переход на платную подписку ChatGPT Plus. Точные детали — например, будет ли это ограничение варьироваться в зависимости от спроса или обновлений модели — пока остаются неясными, но такой подход выглядит логичным шагом для управления ресурсами и поддержания качества сервиса.
Таким образом, генератор изображений GPT-4o смело можно отнести к инструментам, обладающим как мощностью, так и универсальностью работы. Почти сразу после релиза он вызвал ажиотаж в сети: пользователи начали выкладывать как созданные с его помощью как изображения в стиле аниме, так и детализированные реалистичные сцены. OpenAI удалось не только догнать лидеров рынка, но и предложить решение, которое выделяется своей практичностью и доступностью. Это отличный инструмент, который подойдет как для профессиональных задач, так и для творческих экспериментов.
Ого, в GPT-4o серьёзно прокачали детали в генерации — это звучит для художника прям очень соблазнительно! Если GPT-4o теперь реально ловит нюансы света, текстуры и настроения, то это может быть настоящим прорывом. Пока сам не тестил, но очень хочется попробовать. Надеюсь, это сэкономит кучу времени на черновиках и референсах.
Одной из сильных сторон модели является ее способность прорабатывать детали. Представим задачу: ночная городская улица с неоновыми вывесками, людьми на тротуарах, автомобилями на дороге и уличными торговцами. Если запросить гиперреалистичную картинку с акцентом на освещение, отражения на мокром асфальте и яркими вывесками, GPT-4o выдает тщательно проработанную сцену. Неон здесь выглядит выразительно, но не перегружает изображение, движение толпы передано естественно, а отражения на асфальте создают ощущение недавнего дождя. Впрочем, не обошлось без нюансов: иногда заметны небольшие отклонения в перспективе или излишне театральное освещение. Однако эти детали вряд ли существенно повлияют на общее восприятие.
Хорошая статья, рекомендую всем ее прочитать.
GPT-4o представляет собой следующий шаг в развитии технологии генерации изображений. Благодаря улучшенной точности и способности работать с различными типами запросов эта нейросеть открывает новые горизонты для применения искусственного интеллекта в повседневной жизни и профессиональной деятельности. Возможности GPT-4o по-настоящему впечатляют. С нетерпением ждем дальнейших обновлений и улучшений в этой области.
Везде нейросети,ИИ,в скором времени без них уже не обойтись.
Интересно наблюдать, как быстро развиваются нейросети. Особенно впечатляет, что теперь можно не только генерировать изображения, но и редактировать их по описанию — это уже почти уровень полноценного визуального ассистента. GPT-4o явно делает шаг вперёд в мультимодальности.
ChatGPT произвел на меня огромное впечатление своей способностью понимать и генерировать текст на естественном языке. Я использовал его для самых разных задач, от написания электронных писем до поиска информации по сложным темам, и всегда получал очень качественные и полезные результаты. Особенно порадовала его способность быстро адаптироваться к моему стилю общения и предоставлять ответы, которые действительно помогают. Я считаю, что ChatGPT — это незаменимый инструмент для всех, кто работает с текстом или просто хочет получить быстрый и умный ответ на свой вопрос.
Насколько я поняла, трудная работа папарацци уходит в прошлое… Генератор изображений в GPT-4o от OpenAI изобразит реалистичное фото хоть кого, хоть где и в какой-угодно ситуации. Интересно, а смогут ли эксперты отличить истину от дипфейка в суде, например?
Усовершенствованная точность и гибкость работы с разными запросами позволяют этой нейросети вывести использование ИИ на принципиально новый уровень — как в повседневных задачах, так и в профессиональной сфере. Возможности GPT-4o действительно поражают, и можно только представить, какие улучшения ждут нас в будущем. Похоже, эпоха папарацци подходит к концу — теперь с помощью генератора изображений от OpenAI можно создать фотореалистичное изображение любого человека, в любом месте и любой ситуации. Благодаря высокой точности и адаптивности к разным запросам, эта нейросеть расширяет границы применения ИИ в жизни и работе.