Модель Genie 3. Google DeepMind показывает, как выглядит будущее виртуальных миров

Недавно компания Google DeepMind представила Genie 3, очередную итерацию своей модели, которая на этот раз научилась генерировать интерактивные миры непосредственно в режиме реального времени. Это новая продвинутая ИИ-модель, предназначенная для создания виртуальных 3D-окружений на основе предоставленного текста. Она не ограничивается статичной картинкой или видео, а создает играбельную среду, по которой можно перемещаться и взаимодействовать с объектами. Точно так, как это происходит в игре или симуляции.

Если предыдущие версии умели создавать статичные сцены, то с новой моделью можно взаимодействовать с виртуальной реальностью прямо в процессе ее генерации. Технология работает со скоростью 20-24 кадров в секунду, поэтому взаимодействие с ней является достаточно плавным для комфортного использования. Разработчики потратили годы на исследования в области симулированных окружений, и в данный момент их система реагирует на действия пользователя практически мгновенно.

Смотрите видео на удобном для вас ресурсе!

Мир, который помнит прошлое

Главная техническая сложность Genie ранее заключалась в том, чтобы модель могла отслеживать всю историю действий пользователя и созданного окружения. Когда человек возвращается в локацию, которую посещал минуту назад, Genie 3 должна вспомнить, как это место выглядело. Сейчас система анализирует предыдущую траекторию движения несколько раз в секунду, реагируя на новые команды. Визуальная память модели простирается на целую минуту назад, что для автоматически генерируемого мира является впечатляющим показателем. При этом каждый новый кадр создается с учетом всей предшествующей последовательности, которая постоянно растет по мере создания виртуального пространства.

В отличие от других технологий, которые требуют явного 3D-представления пространства (например, NeRF или Gaussian Splatting), Genie 3 создает окружение кадр за кадром на основе описания мира и действий пользователя. Создаваемые моделью миры являются более динамичными и богатыми по содержанию, но при этом задача по поддержанию однородности несколько усложняется. Со временем, конечно, ошибки при автоматической генерации накапливаются, этого не избежать; однако сейчас разработчикам удалось добиться стабильности на протяжении нескольких минут непрерывного взаимодействия. На данный момент окружения остаются физически последовательными даже при длительной работе.

Отметим, что модель является экспериментальной. Пока что доступ к проекту предоставляется в ограниченном режиме: он открыт только для подписчиков сервиса Google AI Ultra в США и предназначен для пользователей старше 18 лет. Такой формат распространения подчеркивает тестовый характер технологии, которая рассматривается в качестве перспективного направления развития систем ИИ типа «world model» (моделирования мира).

Погода по запросу и другие эксперименты

Помимо навигационных команд, Genie 3 поддерживает текстовое управление событиями внутри созданного пространства. DeepMind называет это программируемыми событиями мира; звучит немного заумно, но суть проста. Можно попросить модель изменить погоду, добавить новые объекты или персонажей прямо в процессе исследования виртуального пространства. Технология открывает интересные возможности для обучения AI-агентов: система умеет генерировать сценарии с различными вариантами развития событий, и это помогает роботам или автономным системам готовиться к неожиданным ситуациям.

Ограничения, о которых стоит знать

Фотореалистичное качество изображения на разрешении 720p выглядит убедительно, но у технологии есть очевидные слабые места. Диапазон действий, которые агент может выполнять напрямую, пока ограничен. Программируемые события позволяют менять окружение, но их выполняет не сам агент, а система по текстовой команде. Моделирование сложных взаимодействий между несколькими независимыми агентами остается проблемой. Каждый агент должен действовать автономно, но при этом влиять на общее окружение, и эту задачу пока не удалось решить полностью.

Genie 3 не умеет точно воспроизводить реальные географические локации, модель скорее создает правдоподобные, но вымышленные места. Рендеринг текста тоже хромает: четкие надписи появляются в основном тогда, когда они заранее описаны в исходных параметрах мира. Длительность непрерывного взаимодействия пока ограничена несколькими минутами, а не часами, как хотелось бы для полноценного погружения. Впрочем, даже такая продолжительность уже позволяет решать многие исследовательские задачи и тестировать поведение AI-агентов в различных условиях.

DeepMind представляет свою работу в качестве важного шага на пути к общему ИИ. Способность модели предсказывать, как окружение будет развиваться в ответ на действия, действительно напоминает базовое понимание физического мира. Команда видит потенциал в образовательных приложениях, в которых школьники или студенты могли бы исследовать исторические эпохи или отдаленные территории без необходимости физически там находиться. Также в будущем модель может применяться и для обучения экспертов различных областей, для отработки тех или иных навыков в безопасной симулированной среде.

В настоящее время компания собирает обратную связь от специалистов, а в будущем планирует постепенно расширять доступ к платформе. Предыдущие модели семейства Genie уже умели генерировать новые окружения для агентов, а видеомодели Veo 2 и Veo 3 продемонстрировали глубокое понимание физических законов реального мира. Новая версия объединяет эти наработки, но при этом в нее добавлена интерактивность, а потому статичная генерация посредством данной модели превращается в живой, отзывчивый мир. Эксперты Креатор Проджект считают, что в перспективе подобные системы способны стать основой для новых форм моделирования и виртуального взаимодействия человека с искусственным интеллектом.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Один комментарий к “Модель Genie 3. Google DeepMind показывает, как выглядит будущее виртуальных миров

  1. В целом, Genie 3 демонстрирует, что будущее виртуальных миров может быть очень гибким, динамичным и управляемым ИИ — от игры до реальных симуляций для науки и бизнеса.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Логотип Sony на здании Новости

Новый инструмент Sony позволяет обнаруживать плагиат в сгенерированной ИИ музыке

18.02.2026 5
Sony Group разработала технологию, позволяющую выявлять оригинальные музыкальные произведения, использованные в композициях, созданных искусственным интеллектом. Это открывает возможность авторам музыкальных…

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности