Google выкатил очередную версию своего генератора изображений – Imagen 4. Компания обещает фотореалистичность, улучшенную четкость и наконец-то нормальный рендеринг текста и типографики. Модель доступна бесплатно через AI Studio и Whisk; правда, с пометкой «ограниченное время» — классический маркетинговый ход, создающий искусственное ощущение срочности. Впрочем, сам факт появления новой версии интересен не столько обещаниями, сколько тем, что показывает текущее состояние гонки AI-генераторов.
Специализация или универсальность?
Imagen 4 представляет собой классический диффузионный движок, заточенный исключительно под создание картинок. Это узкоспециализированный инструмент, который умеет отлично полировать текстуры, балансировать цвета и после этого – выдавать приятные с визуальной точки зрения результаты. Модель работает по принципу сопоставления текстового описания с паттернами из обучающих данных, постепенно превращая шум в осмысленное изображение. В этом подходе есть своя прелесть: фокус на одной задаче теоретически должен давать лучшее качество в этой конкретной области.
Проблема в том, что специализированные диффузионные модели не понимают мир в полном смысле этого слова. Они доподлинно «не знают», что на свадьбе обычно два человека стоят впереди, что хоккейная клюшка должна быть длинной и тонкой, или что у человека пять пальцев на руке, а не семь. Модель просто натренирована превращать слова в пиксели, опираясь на статистические закономерности из миллионов изображений. Поэтому при сложных композициях или разного рода необычных запросах система начинает выдавать артефакты. Да-да, те самые странные пальцы, кривой текст и анатомические несуразности.

Мультимодальные LLM меняют правила игры
Параллельно с Imagen 4 Google развивает другой подход – нативную генерацию изображений в мультимодальных больших языковых моделях типа Gemini 2.5 Flash Image. Здесь философия принципиально иная: изображение рассматривается в качестве еще одной формы языка, которую модель понимает так же, как текст или аудио. Секрет в токенизации – процессе, который преобразует любые данные (текст, картинки, звук) в числовые представления, с которыми может работать нейросеть.
Главное преимущество такого подхода состоит в возможности переноса знаний между различными модальностями. Когда LLM обучается на текстах, она формирует модель мира: понимает физику, социальные нормы, причинно-следственные связи. А если к этой модели добавляется способность генерировать изображения, все накопленное понимание мира автоматически применяется к визуальной модальности. Модель не просто сопоставляет слова с пикселями; она практически рассуждает о том, как должна выглядеть сцена, учитывая логику реальности.

Именно поэтому Gemini 2.5 Flash Native Image справляется с композиционными инструкциями лучше классических диффузионных моделей. Можно попросить отредактировать картинку в несколько этапов, изменить только определенный элемент, сохранив остальное, или создать сложную сцену с точным расположением объектов. LLM понимает пространственные отношения, счет, контекст… Одним словом, все те вещи, с которыми чисто диффузионные модели традиционно борются.

Честные ограничения Imagen 4
Google не скрывает слабые места новой модели, что, конечно же, заслуживает уважения. Первая проблема заключается в фактической репрезентации результатов. Диффузионные модели не обладают реальным знанием о мире, которое есть у LLM. Поэтому при создании сложных композиций все еще возможны артефакты – особенно, если речь идет о мелких лицах, рендеринге текста, а также всевозможных тонких структурах. Нейросеть может нарисовать красивую картинку, но если попросить изобразить конкретный исторический момент или техническое устройство, точность деталей не гарантируется.
Вторая странность – это проблемы с центрированием изображений. Модель иногда не может создать идеально выровненную композицию, например, круг точно посередине кадра. С одной стороны, этот момент может показаться мелочью, однако иногда в задачах дизайнерского плана такого рода ограничения начинают носить критичный характер.
Еще один, третий, момент – довольно-таки непредсказуемое поведение нейросети при промптах с низкой смысловой нагрузкой. К примеру, если накормить Imagen 4 случайным набором эмодзи или символов, результат будет непонятно каким. Впрочем, этот пункт скорее забавный – кто в здравом уме будет генерировать картинки из эмодзи.

Где доступна нейросеть
Imagen 4 доступна через AI Studio и экспериментальный инструмент Whisk, с которым можно использовать изображения в качестве промптов для визуализации идей. Google AI Studio представляется в качестве самого быстрого способа сократить путь от прототипа до результата. Gemini API предлагает программный доступ для разработчиков, желающих встроить модель в свои приложения. Vertex AI Studio – корпоративное решение для тестирования и развертывания на уровне предприятий.
По мнению экспертов Креатор Проджект, Imagen 4 стала уверенным шагом вперед, если сравнивать ее с другими диффузными генераторами. Модель хорошо справляется с визуальным качеством и типографикой, однако по глубине понимания сцен и логике композиции все еще уступает мультимодальным LLM. Так что модель Imagen 4 с полной уверенностью можно назвать сильным нишевым инструментом в экосистеме Google, а не универсальным решением «на все случаи жизни».
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.






О, Боже! Наконец-то, прорыв — иишка научился-таки считать до пяти :))) А мне интересно, если ИИ рисуя, опирается на статистику, то что это за статистика такая, говорящая что у человека на руке должно быть в среднем 6 пальцев?