Runway Gen-4.5 и пределы современных моделей ИИ для генерации видео

Разговор о генерации видео сейчас постепенно уходит от восторженного «смотрите, оно движется» к более приземленному «а можно ли с этим вообще нормально работать». Runway Gen-4.5 появился как раз в точке, в которой ожидания уже выросли, а терпение к странностям, наоборот, снизилось. На первый взгляд все похоже на серьезный апгрейд: картинка в обновленной модели стала аккуратнее, движения плавнее. Сами сцены выглядят более детальными. Но, если присмотреться чуть внимательнее, становится понятно, что перед нами не финальная версия будущего, а вполне промежуточный этап, пусть и заметно более зрелый.

Смотрите видео на удобном для вас ресурсе!

Картинка, которая стала «взрослее»

Главное изменение ощущается не в отдельных функциях, а в общем восприятии видео. Gen-4.5 лучше держит сцену во времени. Если раньше объекты могли «растворяться» или менять форму без особых причин, теперь это происходит реже, и видео выглядит более связным. Свет, текстуры, материалы – все стало чуть аккуратнее. Иногда даже появляется ощущение, что модель начала понимать, как устроена поверхность предметов, а не просто накладывать визуальный шум.

Личный кабинет пользователя Runway Gen-4.5

Физика тоже подтянулась. Движения стали менее дергаными, у объектов появился намек на вес и инерцию. Вода течет не как гель, ткани ведут себя более правдоподобно. До уровня стопроцентной симуляции модель пока не дотягивает, но уже стало меньше того хаоса, который бросался в глаза раньше. Особенно хорошо Gen-4.5 работает в спокойных сценах, в которых нет перегруженности действиями. Там модель действительно может выдать результат, который выглядит почти что как готовый кусок полноценного видео, а не как еще одна демонстрация технологии.

Но есть и один немаловажный нюанс. Чем сложнее сцена, тем быстрее проявляются ограничения. В динамике модель все еще теряет уверенность. Взаимодействие объектов может выглядеть странно, а логика событий иногда нарушается. Причина и следствие меняются местами, действия происходят «сами по себе». Это не редкость, а скорее характерная особенность, к которой приходится привыкать.

Контроль, который не всегда подчиняется

Runway делает акцент на управляемости, и это логично: без контроля генерация видео быстро превращается в угадайку. В Gen-4.5 управление стало точнее, но не настолько, чтобы полностью полагаться на него. Основной инструмент тут по-прежнему текст, а текст, как выясняется – не лучший способ объяснить машине, как именно должна двигаться камера или вести себя персонаж.

В простых сценариях все работает предсказуемо. Модель ловит настроение, композицию, общий ритм сцены. Но как только появляется необходимость в деталях, начинаются расхождения. Особенно они заметны в сценах с людьми. Лица нередко теряют стабильность, движения выглядят не до конца естественно. Мелкие детали «плывут» от кадра к кадру. В результате приходится либо упрощать задачу, либо делать несколько попыток в надежде получить приемлемый вариант.

Есть и вопрос к тому, как нейросеть понимает контекст будущего ролика. Реальные локации модель воспроизводит довольно условно. Вместо конкретного места порой получается собирательный образ, который может выглядеть красиво, но не точно. Если говорить о креативных заданиях, это может и не стать проблемой; однако если речь идет о более прикладных задачах, то здесь пользователи рискуют столкнуться с разочарованием.

Шаг вперед, но не финальная точка

С технической стороны Gen-4.5 выглядит уверенно. Видно, что работа шла не только над качеством картинки, но и над общей эффективностью. Модель не стала заметно тяжелее в использовании, при этом результат все же можно назвать более стабильным. А без этого любые улучшения качества быстро теряют смысл на практике.

Тем не менее ощущение «недокрученности» остается. Базовые ограничения видео-моделей никуда не делись, и Gen-4.5 этой судьбы не избежала; причинно-следственные тут связи иногда ломаются, объекты порой исчезают. Сложные действия при неудачных генерациях выглядят странно. В некоторых случаях модель как будто «додумывает» происходящее, и не всегда удачно. Добавляется и субъективный момент: ожидания от таких инструментов сейчас завышены, и любое несоответствие воспринимается острее.

Выводы

Как полагают эксперты Креатор Проджект, Gen-4.5 является не провалом и в то же время не прорывом в чистом виде. Эта модель демонстрирует движение вперед, однако и не позволяет забыть о компромиссах. С ней можно быстро реализовать новый концепт, провести смелый эксперимент. Однако если требуется основательный помощник в генерации большого количества качественного контента – увы, сейчас это не Runway, ведь модель все еще требует большого терпения от пользователей. И, возможно, именно этот факт лучше всего описывает текущее состояние генеративного видео: оно уже впечатляет, но пока не освобождает от необходимости внимательно смотреть на результат.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Один комментарий к “Runway Gen-4.5 и пределы современных моделей ИИ для генерации видео

  1. То, что разработчики продолжают прорабатывать тонкости это, конечно, хорошо, но глобального шага вперед, увы, пока не видно. Полировка деталей не компенсирует полностью фундаментальных ошибок модели.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности