Обзор модели LTX-2. Нейросеть, которая снимает кино

28.03.202628.03.2026

В октябре 2025 года компания Lightricks анонсировала LTX-2, мультимодальную нейросеть, которая генерирует синхронизированное видео и аудио в нативном 4K, умеет работать на мощном потребительском железе и при этом полностью открыта для скачивания и коммерческого использования. Официальный релиз с весами и кодом состоялся в январе 2026 года. Так что это уже не анонс и не демо, а рабочий инструмент, который прямо сейчас лежит на Hugging Face и ждет своего часа.

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео Дзен RuTube ОК

Что внутри и как все устроено

Архитектурно LTX-2 построен на основе DiT, то есть Diffusion Transformer. Суммарно модель насчитывает 19 млрд. параметров, из которых 14 млрд. отдано видеопотоку и 5 млрд. аудио. То есть, это асимметричная двухпоточная конструкция, в рамках которой оба потока обрабатываются одним трансформером параллельно. Никакого разделения на «сначала картинка, потом звук поверх»; здесь единый процесс, в котором видео и аудио влияют друг на друга с первого же шага генерации. И да, это не мелочь, ведь на практике данная особенность меняет все: звук захлопывающейся двери совпадает с моментом захлопывания, шаги синхронизированы с движением персонажа, а не подогнаны к нему после.

В качестве текстового энкодера здесь используется Gemma-3, а не привычный CLIP. Разница принципиальная: Gemma-3 понимает тонкие языковые нюансы (эмоции, световые схемы, движения камеры, нарративные дуги). Иными словами, детальный промпт здесь работает иначе, чем в большинстве конкурирующих систем. Модель не просто распознает отдельные слова и пытается их как-то скомбинировать, она понимает контекст и потому следует инструкциям более предсказуемо, а это дорогого стоит. Никто не хочет угадывать, как именно нейросеть интерпретировала фразу «тревожная атмосфера» в очередной раз.

Что получается на выходе

Независимые бенчмарки Artificial Analysis при релизе поставили LTX-2 в топ-3 лучших моделей типа «текст в видео», сразу за Kling 3.5 и Veo 3.1. И что ж, такая позиция вполне честна. Обходить закрытые системы с многомиллиардными вычислительными бюджетами модель не претендует. Но для полностью открытого инструмента, который можно скачать, запустить локально и дообучить под собственный стиль, это весомо. Особенно если учесть, что еще год назад видеогенерация с открытым исходным кодом и близко не стояла к коммерческим решениям по качеству результата.

Модель сильна в визуальной точности и следовании промпту. Когда инструкция касается конкретных физических действий, работы камеры или световой схемы, LTX-2 выполняет ее почти механически точно. Еще одним заметным плюсом выступает фреймовая стабильность. Картинка не «плывет» между кадрами так, как это бывает у многих конкурентов при чуть более сложном движении. Поддержка LoRA позволяет за час дообучить модель под конкретную эстетику или устойчивый персонаж без переобучения всей 19-миллиардной системы. Готовые адаптеры от самой Lightricks покрывают управление камерой, детализацию текстур, работу с контурами глубины.

Проблемы, впрочем, никуда не делись, и говорить о них честнее, чем делать вид, что их нет. В сложных сценах с несколькими взаимодействующими персонажами все-таки могут возникать артефакты. Мелкий текст в кадре читается плохо, и это общая боль всего поколения, LTX-2 не исключение. Аудиогенерация при всей синхронности уступает по разнообразию специализированным звуковым моделям. Физически сложная динамика, взрывы, хаотичное движение, нестандартная гравитация, по-прежнему остается зоной риска. Все это не делает инструмент нерабочим. Просто стоит знать об этом заранее, а не открывать для себя в тот момент, когда горит дедлайн.

Кому и для чего будет интересна модель

Главная ставка Lightricks сделана на тех пользователей, уставших зависеть от облачных подписок и черных ящиков, с которыми непонятно ни то, как именно принимаются решения, ни то, куда уходят загруженные материалы. Коммерческое использование для компаний с выручкой до 10 миллионов долларов бесплатно. Для академических проектов тоже. Крупные организации могут получить доступ через коммерческую лицензию с поддержкой. Довольно-таки нетривиальная модель монетизации, которая отражает позицию компании: инструмент должен быть доступен тем, кто в нем больше всего нуждается, а не только тем, у кого есть корпоративный бюджет на Sora или Veo.

Модель работает в ComfyUI и доступна через Fal, Replicate, OpenArt и API Lightricks. Это удобно: можно либо запускать локально и полностью контролировать процесс, либо использовать облако и не заморачиваться с железом. Но пользоваться «без ежемесячных счетов» получится только в том случае, если у есть мощный компьютер и все держишь у себя. В облаке все равно приходится платить за GPU-время. Для небольшой студии это будет плюсом: если модель действительно открытая (с весами и кодом), ее можно дообучать под свой стиль и не зависеть от внезапных изменений правил платформы.

Итоговый портрет LTX-2 получается примерно таким: это вполне себе зрелый открытый инструмент с понятной архитектурой и одним по-настоящему уникальным свойством в виде открытой совместной генерации видео и звука. Модель, подчеркивают эксперты Креатор Проджект, не станет заменой дорогостоящим облачным системам. Однако для тех пользователей, которым важен контроль над генерацией и возможность настраивать инструмент под себя она станет неплохим выбором, вполне заслуживающим внимания. А с учетом того, что модель условно бесплатна и лежит в открытом доступе, как минимум стоит попробовать.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.

Интересно? Поделиться:

Один комментарий к “Обзор модели LTX-2. Нейросеть, которая снимает кино”

Андрей Седов:

28.03.2026 в 18:42

Как технарь и киноман, я в восторге. LTX 2 не заменит полностью живых режиссёров и актёров, но станет мощным инструментом: ускорит производство; снизит затраты; откроет возможности для креативности (например, быстро тестировать безумные идеи). Особенно круто, что нейросеть чувствует атмосферу: если задать настроение (тревога, радость), она подстроит свет, музыку, мимику. LTX 2 это не просто ещё одна нейросеть, а серьёзный шаг к будущему, где грань между человеческим и машинным творчеством стирается.

Ответить

Добавить комментарий Отменить ответ

Рекомендуем почитать

Главная страница Mochi

Mochi 1. Открытая нейросеть для генерации видео с большими амбициями и заметными ограничениями

Когда компания называет свою нейросеть «Мочи» — это уже похоже на то, что серьезность тут не в приоритете. Но за…

Главная страница Seedance 2.0

Seedance 2.0: AI, который снимает кино со звуком не хуже настоящего режиссера

ByteDance выпустила Seedance 2.0 в феврале 2026 года, и этот релиз стал серьезным шагом вперед в генерации видео. Модель, которую…

Логотип CapCut

Приложение CapCut. Когда нужно быстро смонтировать видео, но нет желания разбираться в сложных программах

Видеоредактор CapCut появился в 2020 году и довольно быстро стал популярным среди тех юзеров, которые делают короткие видео. Программа существует…

Главная страница Pika

Pika 2.2. AI-генератор видео, который разочаровывает

AI-генератор видео Pika 2.2 обещает создавать короткие ролики из текстовых описаний или изображений. Сервис используется для создания кинематографичного контента; не…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности