Waymo давно подчеркивает свои связи с DeepMind компании Google, и многолетними исследованиями в области искусственного интеллекта, как стратегическое преимущество перед конкурентами в сфере автономного вождения. Теперь подразделение Alphabet делает очередной шаг вперед, разработав новую модель обучения для своих роботакси, основанную на мультимодальной большой языковой модели (MLLM) Google под названием Gemini.
Waymo опубликовала новый исследовательский доклад, в котором представлена «Мультимодальная модель от начала до конца для автономного вождения», также известная как EMMA. Эта новая модель обучения обрабатывает данные датчиков для генерации «будущих траекторий автономных транспортных средств», помогая беспилотным автомобилям Waymo принимать решения о направлении движения и избегать препятствий.
Однако наиболее важно то, что это является одним из первых сигналов о том, что лидер в области автономного вождения намерен задействовать MLLM в своих операциях. Это также указывает на возможность того, что эти модели могут выйти за рамки традиционного использования в чат-ботах, организаторах электронной почты и генераторах изображений и найти применение в абсолютно новой среде — на дорогах. В своем исследовательском докладе Waymo предлагает «разработать систему автономного вождения, в которой MLLM станет полноправным участником».
Доклад описывает, как исторически для разработки систем автономного вождения создавались отдельные «модули» для различных функций, таких как восприятие, картографирование, предсказание и планирование. Этот подход был полезен на протяжении многих лет, но вызывает проблемы при масштабировании из-за накопленных ошибок между модулями и ограниченной коммуникации между ними. Кроме того, эти модули могут испытывать трудности с адаптацией к «новым условиям», так как их основной принцип работы – это предварительно определенные алгоритмы, что затрудняет их гибкость.
Waymo утверждает, что модели типа MLLM, такие как Gemini, могут предложить интересное решение некоторых из этих задач по двум причинам: во-первых, благодаря своей «универсальности», они обучены на огромных наборах данных из интернета, которые содержат богатую «ировую информацию», выходящую далеко за рамки обычных логов движения; во-вторых, они демонстрируют «превосходные» возможности логического рассуждения с использованием техник, таких как «цепочка рассуждений», которые имитируют человеческое мышление, разбивая сложные задачи на серию логических шагов.
EMMA была разработана Waymo в качестве инструмента для помощи роботакси в навигации по сложным средам. Компания выделила несколько ситуаций, в которых модель помогла беспилотным автомобилям наход правильные маршруты, включая случаи с животными на дороге или дорожно-строительные работы.
Другие компании, такие как Tesla, также активно обсуждают разработку моделей «от начала до конца» для своих автономных автомобилей. Илон Маск утверждает, что последняя версия системы Full SelfDriving (12.5.5) использует ИИ-систему «нейронных сетей от начала до конца», которая преобразует изображения с камер в решения о движении.
Это свидетельствует о том, что Waymo, которая опережает Tesla в развертывании реальных беспилотных автомобилей на дорогах, также активно изучает возможности создания системы «от начала до конца». Компания сообщила, что модель EMMA продемонстрировала отличные результаты в прогнозировании траектории, обнаружении объектов и анализе дорожных карт.
«Это открывает перспективное направление для дальнейших исследований, где еще больше основных задач автономного вождения могли бы быть объединены в аналогичную, но более масштабную систему», — заявила компания в своем сегодняшнем блоге.
Однако EMMA также имеет свои ограничения, и Waymo признает, что потребуются дальнейшие исследования, прежде чем эта модель будет внедрена на практике. Например, EMMA не могла использовать данные с 3D-датчиков, таких как лидар или радар, так как это оказалось «вычислительно затратным». Кроме того, модель способна обрабатывать лишь небольшое количество кадров изображений одновременно.
Существуют также риски при использовании MLLM для обучения роботакси, которые не упоминаются в исследовательском докладе. Чат-боты, такие как Gemini, могут генерировать ложные данные или ошибаться в решении простых задач, например, при счете объектов или чтении времени на часах. У Waymo нет права на ошибку, когда ее автомобили движутся со скоростью 40 миль в час по оживленной дороге. Для внедрения этих моделей в массовую эксплуатацию потребуется провести дополнительные исследования, и в этом компания открыто заявляет.
«Мы надеемся, что наши результаты вдохновят на дальнейшие исследования для устранения этих проблем», — пишет исследовательская группа компании, — «и позволят продолжить развитие современных архитектур моделей для автономного вождения».
Источник: The Verge