Кандинский 3.1. Генеративный прорыв или косметический апдейт?

Кандинский 3.1

Известная нейронная сеть для генерации изображений по текстовым запросам «Кандинский» в настоящее время продолжает свое развитие. Названная в честь знаменитого русского художника-абстракциониста, она получила значительное обновление в версии 3.1, и теперь предлагает пользователям новые возможности создания визуального контента. Разработчики сделали большой шаг вперед, трансформировав алгоритмы и подходы к генерации изображений. Но насколько качественные результаты выдает эта нейросеть в процессе работы? Поговорим о новом «Кандинском» более подробно.

От абстракций к фотореализму

История развития «Кандинского» отражает эволюцию технологий генерации изображений. Если весной 2023 года версия 2.1 демонстрировала неплохие результаты в создании художественных артов, то к лету того же года разработчикам пришлось ответить на вызов зарубежных конкурентов Midjourney и Stable Diffusion, которые уже двигались в сторону фотореализма. Так появилась версия 2.2, а затем и принципиально новое поколение – Кандинский 3.0, представленное на конференции AI Journey.

В версии 3.0 была пересмотрена архитектура и внедрен более мощный текстовый энкодер, что позволило существенно повысить качество изображений с точки зрения детализации и реалистичности. В новой версии 3.1 разработчикам удалось совершить своего рода прорыв – ускорить процесс генерации почти в 20 раз. Теперь для создания изображения достаточно всего 4 проходов через U-Net. По сути, «Кандинский» эволюционировал из классической диффузионной модели в нечто близкое к GAN (генеративно-состязательной сети), что нашло отражение в названии технологии – Kandinsky 3.0 Flash.

Функциональный арсенал нейросети

Нейросеть «Кандинский» предлагает широкий спектр функций для работы с изображениями. Базовой возможностью остается генерация по текстовому описанию – пользователь вводит запрос, а система создает соответствующее изображение. Особенностью сервиса является его оптимизация для работы с русским языком, что отличает его от многих зарубежных аналогов. В версии 3.1 появилась полезная функция «бьютификации» запроса, которая использует большую языковую модель (LLM) Neural-Chat-v3-1 для улучшения пользовательского ввода. Система автоматически добавляет детали к промпту, что позволяет получать более качественные и соответствующие ожиданиям результаты.

Среди других интересных возможностей стоит отметить смешивание изображений, создание вариаций на основе готовых картинок, функцию дорисовки (outpainting), а также перенос стиля – аналог плагина ControlNet от Stable Diffusion. Последняя функция позволяет переносить позу персонажа или очертания исходного изображения на новую генерацию.

Отдельного внимания заслуживает возможность генерации коротких анимированных роликов. Нейросеть создает четырехсекундные гифки, которые можно комбинировать в небольшие видеоклипы. Благодаря специальной диффузионной модели SuperRes, «Кандинский 3.1» теперь способен генерировать изображения в разрешении 4K.

Как использовать нейросеть

Теперь изучим, как работает нейросеть в реальности, а не на словах. Чтобы воспользоваться «Кандинским» и сгенерировать изображение, достаточно зайти на страницу нейросети (находится по адресу Fusionbrain.ai). Также можно воспользоваться ботами Вконтакте или в Телеграм. Сначала мы попросили сгенерировать нейросеть изображение «сферического коня в вакууме». Изображение оказалось не лишенным артефактов. В частности, лошадь получилась с тремя задними ногами, а также с лишней подковой спереди:

Изображение, полученное на платформе Fusionbrain, вышло более корректным. Хотя тоже не без минусов — например, зачем-то нейросеть расположила подсвечники прямо на полу:

С применением опции улучшения промпта изображение вышло уже лучше (хотя, опять-таки, не без минусов — вы только посмотрите на этот ковер со странным рисунком и странное отверстие в потолке):

А вот как нейросеть справилась с созданием абстрактного изображения планеты:

Далее мы попросили нейросеть создать изображение симпатичной девушки, при этом также активировав функцию бьютификации. И на этот раз стопроцентно качественный результат получен не был — нейросеть не дорисовала цепочку на шее девушки:

Минусы модели

Как можно увидеть, несмотря на впечатляющие возможности, «Кандинский» демонстрирует неоднозначные результаты в некоторых сценариях. Если с абстрактными композициями нейросеть справляется достаточно хорошо, то при создании детализированных сцен или портретов могут возникать заметные проблемы. Интеграция функции Inpainting в версии 3.1 – модификации основной модели для дорисовки недостающих частей изображения по текстовому описанию – частично решает эту проблему, позволяя корректировать результаты и доводить их до желаемого состояния. Но тут возникает риторический вопрос: зачем долго генерировать одно и то же изображение, пытаясь его улучшить, если сегодня можно найти уйму нейросетей, понимающих пользовательские запросы с первого раза?

К тому же, интерфейс программы, хоть и устроен интуитивно понятным образом, на наш взгляд все же не совсем удобен. На темном фоне сложно разглядеть детали изображения, и сама область генерации занимает совсем небольшую площадь, что затрудняет концентрацию внимания на творческом процессе:

Заключение

Таким образом, главным преимуществом сервиса остается его адаптация для русскоязычных пользователей. «Кандинский» действительно хорошо понимает запросы на русском языке и учитывает их нюансы при генерации, что делает работу с ним комфортной для русскоговорящей аудитории. Однако факт остается фактом: несмотря на технические улучшения, нейросеть все еще не лишена артефактов и требует доработки в ряде сценариев.

Интересно? Поделиться:

2 комментария к “Кандинский 3.1. Генеративный прорыв или косметический апдейт?

  1. Ну и наворотили. Тоже пробовал задавать промпты, но всегда все это превращается в лотерею и выдает, то, что не нужно было либо вообще не понимает контекста, но выглядит прикольно. В целом Kandinsky 3.1 как смартфон с мощным процессором, но с камерой, которая иногда решает, что нос не нужен. Хорошо, что развивается, но пока не прорыв, а скорее «ну почти, почти…».

  2. Интересный разбор! На мой взгляд, Кандинский 3.1 действительно стал шагом вперёд — генерация стала чётче, особенно в мелких деталях и лицах. Конечно, это всё ещё не революция, но апдейт точно не «косметический». Видно, что модель развивается — и это радует.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *