Обзор модели LTX-2. Нейросеть, которая снимает кино

В октябре 2025 года компания Lightricks анонсировала LTX-2, мультимодальную нейросеть, которая генерирует синхронизированное видео и аудио в нативном 4K, умеет работать на мощном потребительском железе и при этом полностью открыта для скачивания и коммерческого использования. Официальный релиз с весами и кодом состоялся в январе 2026 года. Так что это уже не анонс и не демо, а рабочий инструмент, который прямо сейчас лежит на Hugging Face и ждет своего часа.

Смотрите видео на удобном для вас ресурсе!

Что внутри и как все устроено

Архитектурно LTX-2 построен на основе DiT, то есть Diffusion Transformer. Суммарно модель насчитывает 19 млрд. параметров, из которых 14 млрд. отдано видеопотоку и 5 млрд. аудио. То есть, это асимметричная двухпоточная конструкция, в рамках которой оба потока обрабатываются одним трансформером параллельно. Никакого разделения на «сначала картинка, потом звук поверх»; здесь единый процесс, в котором видео и аудио влияют друг на друга с первого же шага генерации. И да, это не мелочь, ведь на практике данная особенность меняет все: звук захлопывающейся двери совпадает с моментом захлопывания, шаги синхронизированы с движением персонажа, а не подогнаны к нему после.

В качестве текстового энкодера здесь используется Gemma-3, а не привычный CLIP. Разница принципиальная: Gemma-3 понимает тонкие языковые нюансы (эмоции, световые схемы, движения камеры, нарративные дуги). Иными словами, детальный промпт здесь работает иначе, чем в большинстве конкурирующих систем. Модель не просто распознает отдельные слова и пытается их как-то скомбинировать, она понимает контекст и потому следует инструкциям более предсказуемо, а это дорогого стоит. Никто не хочет угадывать, как именно нейросеть интерпретировала фразу «тревожная атмосфера» в очередной раз.

Что получается на выходе

Независимые бенчмарки Artificial Analysis при релизе поставили LTX-2 в топ-3 лучших моделей типа «текст в видео», сразу за Kling 3.5 и Veo 3.1. И что ж, такая позиция вполне честна. Обходить закрытые системы с многомиллиардными вычислительными бюджетами модель не претендует. Но для полностью открытого инструмента, который можно скачать, запустить локально и дообучить под собственный стиль, это весомо. Особенно если учесть, что еще год назад видеогенерация с открытым исходным кодом и близко не стояла к коммерческим решениям по качеству результата.

Модель сильна в визуальной точности и следовании промпту. Когда инструкция касается конкретных физических действий, работы камеры или световой схемы, LTX-2 выполняет ее почти механически точно. Еще одним заметным плюсом выступает фреймовая стабильность. Картинка не «плывет» между кадрами так, как это бывает у многих конкурентов при чуть более сложном движении. Поддержка LoRA позволяет за час дообучить модель под конкретную эстетику или устойчивый персонаж без переобучения всей 19-миллиардной системы. Готовые адаптеры от самой Lightricks покрывают управление камерой, детализацию текстур, работу с контурами глубины.

Проблемы, впрочем, никуда не делись, и говорить о них честнее, чем делать вид, что их нет. В сложных сценах с несколькими взаимодействующими персонажами все-таки могут возникать артефакты. Мелкий текст в кадре читается плохо, и это общая боль всего поколения, LTX-2 не исключение. Аудиогенерация при всей синхронности уступает по разнообразию специализированным звуковым моделям. Физически сложная динамика, взрывы, хаотичное движение, нестандартная гравитация, по-прежнему остается зоной риска. Все это не делает инструмент нерабочим. Просто стоит знать об этом заранее, а не открывать для себя в тот момент, когда горит дедлайн.

Кому и для чего будет интересна модель

Главная ставка Lightricks сделана на тех пользователей, уставших зависеть от облачных подписок и черных ящиков, с которыми непонятно ни то, как именно принимаются решения, ни то, куда уходят загруженные материалы. Коммерческое использование для компаний с выручкой до 10 миллионов долларов бесплатно. Для академических проектов тоже. Крупные организации могут получить доступ через коммерческую лицензию с поддержкой. Довольно-таки нетривиальная модель монетизации, которая отражает позицию компании: инструмент должен быть доступен тем, кто в нем больше всего нуждается, а не только тем, у кого есть корпоративный бюджет на Sora или Veo.

Модель работает в ComfyUI и доступна через Fal, Replicate, OpenArt и API Lightricks. Это удобно: можно либо запускать локально и полностью контролировать процесс, либо использовать облако и не заморачиваться с железом. Но пользоваться «без ежемесячных счетов» получится только в том случае, если у есть мощный компьютер и все держишь у себя. В облаке все равно приходится платить за GPU-время. Для небольшой студии это будет плюсом: если модель действительно открытая (с весами и кодом), ее можно дообучать под свой стиль и не зависеть от внезапных изменений правил платформы.

Итоговый портрет LTX-2 получается примерно таким: это вполне себе зрелый открытый инструмент с понятной архитектурой и одним по-настоящему уникальным свойством в виде открытой совместной генерации видео и звука. Модель, подчеркивают эксперты Креатор Проджект, не станет заменой дорогостоящим облачным системам. Однако для тех пользователей, которым важен контроль над генерацией и возможность настраивать инструмент под себя она станет неплохим выбором, вполне заслуживающим внимания. А с учетом того, что модель условно бесплатна и лежит в открытом доступе, как минимум стоит попробовать.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

4 комментария к “Обзор модели LTX-2. Нейросеть, которая снимает кино

  1. Как технарь и киноман, я в восторге. LTX 2 не заменит полностью живых режиссёров и актёров, но станет мощным инструментом: ускорит производство; снизит затраты; откроет возможности для креативности (например, быстро тестировать безумные идеи). Особенно круто, что нейросеть чувствует атмосферу: если задать настроение (тревога, радость), она подстроит свет, музыку, мимику. LTX 2 это не просто ещё одна нейросеть, а серьёзный шаг к будущему, где грань между человеческим и машинным творчеством стирается.

  2. Да еще много надо работать что бы все довести до совершенства.

  3. Ой, ну мне прям интересно стало как нейросеть интерпретирует фразу «тревожная атмосфера». Даже люди могут понимать и интерпретировать эту фразу по-разному.

  4. Это очень интересно. Нейросеть и ИИ на два шага впереди.

Обсуждение закрыто.

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности