Рынок AI-генераторов изображений переживает период, который можно назвать «гонкой вооружений в пикселях». Midjourney, DALL-E, Stable Diffusion – все они годами соревновались за право создавать самые красивые картинки из текстовых описаний. И вот летом 2024 года на этот переполненный ринг выходит Flux от немецкой Black Forest Labs – стартапа, основанного людьми, которые когда-то создали сам Stable Diffusion.
Создание проекта
Основатели Робин Ромбах, Андреас Блаттман и Патрик Эссер работали в Stability AI, потом ушли и решили сделать что-то новое. В августе 2024-го они вышли из тени с 31 млн. посевных инвестиций от компании «Andreessen Horowitz» и сразу привлекли внимание – их модель Flux.1 начала выдавать изображения, которые многие называли «пугающе реалистичными». К концу 2025 года компания уже привлекла в общей сложности более 450 млн. долларов и оценивается в 3,25 млрд. долларов. Неплохой результат для проекта, которому нет и полутора лет.
Flux работает на базе трансформеров с 12 миллиардами параметров и использует архитектуру потоковой диффузии. Говоря иначе, модель понимает текстовые промпты лучше конкурентов и способна генерировать не просто красивые, а функционально точные изображения. Один из главных козырей состоит в способности работать с текстом внутри изображений. Там, где DALL-E и Midjourney выдавали кракозябры вместо надписей, Flux рисует читаемые вывески и подписи.

Как работает платформа и почему она побеждает конкурентов
Пользовательский интерфейс нейросети достаточно прост:

После ввода описания ИИ генерирует несколько вариантов изображений:

Некоторые считают, что именно семейство FLUX.2 обеспечивает лучшее соотношение цены и качества среди всех теперешних генераторов изображений. Модель показывает лидирующую производительность в генерации «text-to-image», редактировании с одним или с несколькими референсами. Она стабильно опережает все альтернативы с заметным отрывом.

FLUX.2 теперь поддерживает до 10 референсных изображений, которые можно объединить в новый результат. Разрешение выходных изображений достигает 4 мегапикселей, улучшено следование промпту и понимание реального мира. Значительно выросло качество типографики. Латентное пространство модели переобучено с нуля для достижения лучшей обучаемости и более высокого качества изображений одновременно – то есть, был сделан значительный шаг к решению триллемы «обучаемость-качество-сжатие».

Что входит в семейство FLUX
Генеративные модели FLUX.2 от Black Forest Labs ориентированы на различные возможности работы с изображениями. Флагманская FLUX.2 [pro] доступна через API: модель делает ставку на высокое качество генерации без потерь в скорости и хорошо следует промптам. Она конкурирует с закрытыми решениями. Разработчикам, которым важна гибкость, подойдет FLUX.2 [flex], которая позволяет тонко настраивать параметры генерации. Она особенно хорошо справляется с текстом и мелкими деталями.
Для тех, кто предпочитает открытые решения, создана FLUX.2 [dev] – мощная модель с открытыми весами, обладающая 32 млрд. параметров и подходящая для локального запуска. Она поддерживает генерацию и редактирование изображений, работу с несколькими референсами и доступна в оптимизированных версиях для современных видеокарт.
Критика, которую предпочитают не афишировать
Реалистичность Flux стала не только главным преимуществом проекта, но и источником головной боли. В августе 2024 года модель интегрировали в чат-бота Grok от xAI Илона Маска, и это вызвало волну критики. Grok с Flux на борту позволял генерировать изображения практически без ограничений – например, политических фигур с оружием, а также откровенно провокационный контент. Соцсети мгновенно наводнились шокирующими и спорными изображениями, что подняло вопросы об этике использования таких мощных инструментов. В декабре 2024-го Grok переключился на собственную модель Aurora, но осадок остался.
Black Forest Labs не раскрывает деталей обучающего датасета, что вызывает подозрения. Технологическим СМИ Ars Technica было выдвинуто предположение, что модель обучалась на огромной коллекции изображений, собранных из интернета без явного разрешения авторов – практика, которая находится в серой юридической зоне и может привести к судебным искам. Это стандартная проблема для всех современных AI-моделей, но в случае с Flux, учитывая его способность создавать неотличимые от фото изображения, риски выше. Возможность генерировать гиперреалистичные подделки реальных людей поднимает вопросы о дипфейках, манипуляциях ИИ, а также проблемах приватности данных.

Заключение
Таким образом, проект Flux стал попыткой взять лучшее из мира открытых моделей и коммерческих решений, а после этого – упаковать все в продукт, который работает быстрее и точнее конкурентов. Black Forest Labs доказала, что небольшая команда бывших сотрудников Stability AI может за год создать технологию, которая обходит гигантов типа Midjourney и DALL-E в конкретных задачах. Особенно там, где важна точность следования промпту и работа с текстом.
По мнению экспертов Креатор Проджект, вопрос не в том, хорош ли Flux технически (он хорош), а в том, как долго компания сможет удерживать лидерство в гонке, в которой каждые полгода появляется новый претендент на трон. Пока что ставка на комбинацию открытых и закрытых моделей работает, но игра только начинается.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.






Это событие, которое, судя по описанию, может серьёзно повлиять на ландшафт генеративного ИИ, особенно в области создания изображений. Если эта модель действительно превосходит своих конкурентов вроде Midjourney или DALL·E 3 по качеству, скорости и точности следования промпту это сигнал к переменам в индустрии.
Хорошо, что конкуренция в сфере генерации изображений не останавливается, так мы получаем больше выбора и разнообразия. Возможность выбирать должна быть у каждого человека.