Operator от OpenAI. Браузерный агент с собственным характером

В январе 2025 года OpenAI выпустила сервис под названием Operator; релиз состоялся в формате исследовательского превью. OpenAI Operator стал первым агентом компании, способным самостоятельно работать в браузере: открывать страницы и выполнять те или иные реальные действия вместо пользователя.

Иными словами, это не просто чат с советами, а система, видящая интерфейс и взаимодействующая с ним точно также, как человек делает это при помощи клавиатуры. С тех пор продукт успел интегрироваться в ChatGPT под названием «агент-режима», но основная его идея осталась прежней. Вместе с командой Креатор Проджект поговорим об особенностях данного цифрового помощника.

Смотрите видео на удобном для вас ресурсе!

Как устроен механизм внутри

Operator построен вокруг модели Computer-Using Agent (сокращенно CUA). Она объединяет возможности зрения GPT-4o с продвинутым мышлением, которое доработали через обучение с подкреплением. Агент работает в собственном виртуальном браузере и не требует специальных API от сайтов. Он получает скриншоты текущей страницы, анализирует их, выстраивает цепочку рассуждений и выполняет действия: кликает, печатает текст, прокручивает контент, ищет нужную пользователю информацию.

Цикл повторяется автоматически. Сначала происходит восприятие через картинку, затем – размышление о следующем шаге с учетом предыдущих и конкретное действие. Если задача требует повторения, агент при необходимости сохраняет пользовательские инструкции – к примеру, предпочтения по авиакомпаниям или способу оплаты. Затем он без лишних вопросов применяет их в похожих сценариях. При этом система легко запускает сразу несколько задач параллельно и открывает отдельные разговоры, словно вкладки в голове.

Благодаря этому работа с нейросетью становится максимально гибкой. ИИ-агент не привязан к одному сайту и может переходить между ними, собирать данные, заполнять нужные формы и т.д.

Обозреваемая функция доступна только на тарифе ChatGPT Pro (цена на момент написания настоящего обзора составляет 200 долл./мес.). Поэтому пока что воспользоваться Operator, к сожалению, могут далеко не все пользователи.  Еще один минус состоит в том, что доступ к функции осуществляется через облачную инфраструктуру, и часть операций выполняется на стороне серверов. То есть, налицо зависимость от стабильности соединения и возможные задержки при высокой нагрузке. В перспективе расширение доступа и оптимизация работы могли бы сделать Operator более массовым инструментом, однако на текущем этапе он остается скорее демонстрацией возможностей, чем повседневным решением для большинства пользователей.

Источник: https://openai.com/index/introducing-operator/

Что получается на практике и в чем спотыкается работа системы

На момент запуска CUA установила новые рекорды на бенчмарках WebArena и WebVoyager, показав 58,1 % и 87 % успеха соответственно. На OSWorld, при помощи которого проверяют выполнение более общих компьютерных задач, результат составил 38,1 % против примерно 72 % у человека.

Агент уверенно справляется с повторяющимися операциями: заказывает продукты, создает мемы, оформляет абонементы и т.д. Он заполняет формы, ищет информацию, корректирует ошибки по ходу работы. Отдельной особенностью выступает возможность учитывать контекст нескольких сайтов подряд.

Источник: https://winbuzzer.com/2025/02/21/openai-broadens-access-to-operator-ai-agent-as-competition-for-ai-driven-automation-intensifies-xcxwbn/

Немного о вопросах безопасности использования

OpenAI с самого начала уделила повышенное внимание безопасности и встроила несколько уровней защиты. Агент обучен отказываться от высокорискованных операций: банковских переводов, решений о найме сотрудников или других действий с серьезными последствиями. Дополнительно работает отдельная мониторинг-модель, которая отслеживает подозрительное поведение и может приостановить задачу. Есть защита от промпт-инъекций и вредоносных сайтов. В плане приватности данные не используются для дообучения моделей, если в настройках ChatGPT отключена соответствующая опция. Всю историю браузинга и разговоры можно удалить одним кликом в разделе приватности. Уже в марте 2025 года CUA начали открывать через API для разработчиков, чтобы компании могли строить собственные решения на этой базе. К июлю 2025 года Operator полностью интегрировали в ChatGPT, и доступ к «агент-режиму» стал проще.

Выводы

Operator ChatGPT заметно сдвинул планку того, чего можно ожидать от браузерных агентов. Он не стал мгновенным чудом, которое решает все проблемы одним кликом, но заметно приблизил момент, когда ИИ перестает только отвечать на вопросы, а начинает выполнять реальную работу. Главное, понимать границы: агент освобождает время от мелочей, однако окончательное решение и ответственность за действия всегда остаются за человеком. Продукт продолжает развиваться и собирать обратную связь, и именно это делает его интересным шагом в сторону более полезных цифровых помощников.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности