Генеральный директор Google Сундар Пичаи объявил о запуске Gemini 2.0, модели, которая представляет собой следующий шаг в стремлении Google совершить революцию в области искусственного интеллекта.
Спустя год после представления модели Gemini 1.0 это важное обновление включает в себя улучшенные мультимодальные возможности, агентную функциональность и инновационные пользовательские инструменты, разработанные для расширения границ технологий, управляемых ИИ.
Шаг к трансформационному ИИ
Отражая 26-летнюю миссию Google по организации и доступности мировой информации, Пичаи отметил: «Если Gemini 1.0 был о том, чтобы организовать и понять информацию, то Gemini 2.0 — о том, чтобы сделать её гораздо более полезной».
Gemini 1.0, выпущенная в декабре 2022 года, была примечательна тем, что стала первой нативно мультимодальной моделью ИИ Google. Первая версия превосходила в понимании и обработке текста, видео, изображений, аудио и кода. Её улучшенная версия 1.5 получила широкое признание среди разработчиков за её способность понимать долгий контекст, что позволило создавать такие приложения, как ориентированный на производительность NotebookLM.
Теперь, с выпуском Gemini 2.0, Google стремится ускорить роль ИИ как универсального помощника, способного к нативной генерации изображений и аудио, лучшему рассуждению и планированию, а также к принятию решений в реальном мире. По словам Пичаи, это развитие представляет собой рассвет «агентной эры».
«Мы вкладываем средства в разработку более агентных моделей, то есть таких, которые могут лучше понимать мир вокруг вас, думать на несколько шагов вперед и действовать от вашего имени под вашим контролем», — объяснил Пичаи.
Gemini 2.0: основные функции и доступность
В центре сегодняшнего анонса находится экспериментальный выпуск Gemini 2.0 Flash, флагманской модели второго поколения Gemini. Она основывается на достижениях своих предшественников, обеспечивая более быстрое время отклика и улучшенную производительность.
Gemini 2.0 Flash поддерживает мультимодальные входы и выходы, включая возможность генерировать нативные изображения вместе с текстом и создавать управляемый текст-в-речь мультиязычный аудио. Кроме того, пользователи могут воспользоваться интеграцией инструментов, таких как Google Search и даже сторонней заданной функциями пользователей.
Разработчики и компании получат доступ к Gemini 2.0 Flash через Gemini API в Google AI Studio и Vertex AI, а более крупные размеры моделей планируется выпустить в январе 2024 года.
Для обеспечения глобальной доступности приложение Gemini теперь оснащено оптимизированной для чата версией экспериментальной модели 2.0 Flash. Ранние пользователи могут попробовать этого обновленного помощника на настольных и мобильных устройствах, при этом выпуск мобильного приложения ожидается в ближайшее время.
Такие продукты, как Google Search, также улучшаются с помощью Gemini 2.0, что позволяет обрабатывать более сложные запросы, такие как продвинутые математические задачи, вопросы по программированию и мультимодальные вопросы.
Комплексный набор новшеств в области ИИ
Запуск Gemini 2.0 сопровождается рядом убедительных новых инструментов, демонстрирующих её возможности.
Одна из таких функций, Deep Research, работает как помощник по ИИ-исследованиям, упрощая процесс изучения сложных тем путем составления информации в полноценные отчёты. Другое улучшение включает в себя возможность выполнения сложных многокроковых пользовательских запросов.
Модель была обучена с использованием шестого поколения тензорных процессоров Google (TPU), известных как Trillium, которые Пичаи отметил, как «те, которые обеспечивали 100% обучения и выведения Gemini 2.0».
Trillium теперь доступен для внешних разработчиков, предоставляя им возможность использовать ту же инфраструктуру, которая поддерживает собственные разработки Google.
Новаторские агентные решения
Вместе с Gemini 2.0 представлены экспериментальные «агентные» прототипы, созданные для изучения будущего взаимодействия человека и ИИ, среди которых:
Project Astra: универсальный ИИ ассистент
Представленный впервые на конференции I/O в начале этого года, Project Astra использует мультимодальное понимание Gemini 2.0, чтобы улучшить взаимодействие ИИ в реальном мире. Доверенные тестировщики испытали помощника на Android, предоставив отзывы, которые помогли улучшить его многоязычный диалог, способность удержания информации и интеграцию с инструментами Google, такими как Search, Lens и Maps. Astra также продемонстрировала почти человеческую задержку в разговоре, и продолжается исследование её применения в носимой технологии, такой как прототипные очки с ИИ.
Project Mariner: переопределение автоматизации в интернете
Project Mariner — это экспериментальный помощник для веб-браузеров, который использует способность Gemini 2.0 рассуждать на основе текстов, изображений и интерактивных элементов, таких как формы в браузере. В начальных тестах он достиг 83.5% успешности на эталоне WebVoyager по выполнению задач в интернете от начала до конца. Ранние тестировщики, использующие расширение для Chrome, помогают улучшать возможности Mariner, в то время как Google оценивает меры безопасности, чтобы гарантировать, что технология останется дружественной и безопасной для пользователя.
Jules: агент для кодирования для разработчиков
Jules, помощник на основе ИИ, разработанный для разработчиков, интегрируется напрямую в рабочие процессы GitHub для решения задач кодирования. Он может автономно предлагать решения, генерировать планы и выполнять задачи, основанные на коде — всё под человеческим надзором. Этот эксперимент является частью долгосрочной цели Google по созданию универсальных агентов ИИ в различных доменах.
Применение в играх и за их пределами
Расширяя сферу действия Gemini 2.0 в виртуальные среды, подразделение Google DeepMind работает с партнёрами в области игр, такими как Supercell, над созданием интеллектуальных игровых агентов. Эти экспериментальные ИИ-компаньоны могут интерпретировать действия в игре в реальном времени, предлагать стратегии и даже получать более широкие знания через Search. Проводится также исследование того, как пространственное мышление Gemini 2.0 может поддерживать робототехнику, открывая двери для применения в физическом мире в будущем.
Решение вопросов ответственности в разработке ИИ
По мере расширения возможностей ИИ Google подчёркивает важность приоритизации вопросов безопасности и этических соображений.
Google утверждает, что Gemini 2.0 прошла обширные оценки рисков, усиленные надзором Комитета по ответственности и безопасности для снижения потенциальных рисков. Кроме того, её встроенные способности к рассуждению позволяют проводить продвинутую «red-teaming», позволяя разработчикам оценивать сценарии безопасности и оптимизировать меры безопасности в масштабе.
Google также изучает меры защиты для обеспечения конфиденциальности пользователей, предотвращения злоупотреблений и обеспечения надёжности агентов ИИ. Например, Project Mariner разработан так, чтобы приоритетами были инструкции пользователя при сопротивлении злонамеренным вводам, предотвращая угрозы, такие как фишинг или мошеннические транзакции. Между тем, функции управления конфиденциальностью в Project Astra упрощают пользователям управление данными сеансов и предпочтениями удаления.
Пичаи подтвердил приверженность компании ответственной разработке, заявив: «Мы твердо верим, что единственный способ создать ИИ — это быть ответственными с самого начала».
С выпуском Gemini 2.0 Flash Google приближается к своей цели создания универсального помощника, способного преобразить взаимодействие в различных доменах.
Источник: Artificial Intelligence News