Слабое звено ИИ-браузеров: OpenAI делится подробностями о борьбе с инъекциями подсказок

Даже несмотря на то что OpenAI усиливает защиту своего браузера Atlas AI от кибератак, компания признает: инъекции подсказок (prompt injection) — разновидность атак, при которой злоумышленники заставляют ИИ-агентов выполнять вредоносные инструкции, часто скрытые на веб-страницах или в электронных письмах, — это риск, который не исчезнет в обозримом будущем. Это вызывает вопросы о том, насколько безопасно такие агенты могут работать в открытом интернете.

Смотрите видео на удобном для вас ресурсе!

«Инъекции подсказок, подобно мошенничеству и социальным инженерным атакам в интернете, вряд ли когда-либо будут полностью “решены”», — написала OpenAI в своем блоге в понедельник, подробно рассказав о том, как компания усиливает “броню” Atlas для борьбы с непрекращающимися атаками. В компании также признали, что “режим агента” в ChatGPT Atlas «расширяет поверхность атаки».

OpenAI запустила браузер ChatGPT Atlas в октябре, и исследователи в области безопасности поспешили опубликовать свои демонстрации, показывая, что достаточно написать несколько слов в Google Docs, чтобы изменить поведение браузера. В тот же день компания Brave опубликовала пост, объясняя, что косвенные инъекции подсказок — системная проблема для ИИ-браузеров, включая и Comet от Perplexity.

OpenAI не единственная, кто признает, что атаки через инъекции подсказок никуда не исчезнут. В начале этого месяца Национальный центр кибербезопасности Великобритании предупредил, что такие атаки на генеративные ИИ-приложения «возможно, никогда не получится полностью устранить», ставя под угрозу конфиденциальность данных на сайтах. Ведомство рекомендовало киберспециалистам не надеяться на полную защиту, а снижать риск и последствия подобных атак.

Со своей стороны, OpenAI заявила: «Мы рассматриваем инъекции подсказок как долгосрочный вызов для ИИ-безопасности и нам предстоит постоянно укреплять нашу защиту».

Рецепт OpenAI против этой сизифовой задачи — активный цикл быстрого реагирования, который, как утверждает компания, уже показывает хорошие результаты при обнаружении новых стратегий атак внутри компании ещё до того, как они будут использованы “на свободе”.

Эта стратегия мало отличается от того, о чем говорят конкуренты вроде Anthropic и Google: для борьбы с устойчивыми атаками, связанными с подсказками, защита должна быть многоуровневой и постоянно тестироваться в стрессовых сценариях. Например, последние исследования Google фокусируются на архитектурном и политическом контроле над агентными системами.

Однако подход OpenAI отличается созданием так называемого «автоматизированного нападающего на базе LLM». Этот нападающий — по сути, бот, обученный с подкреплением на роль хакера, в поисках способов внедрять вредоносные инструкции ИИ-агенту.

Бот может опробовать атаку в симуляторе до ее реального применения, причем симулятор показывает, как именно целевой ИИ будет «думать» и какие действия предпримет при обнаружении атаки. Бот может проанализировать ответ, скорректировать атаку и попробовать снова. Такое понимание внутренней логики агента внешним злоумышленникам недоступно, поэтому, в теории, бот OpenAI способен находить уязвимости быстрее, чем реальные атакующие.

Это распространенный прием в тестировании безопасности ИИ — создавать агента, который ищет крайние (edge) случаи, и быстро тестировать на них систему в симуляторе.

«Наш нападающий, обученный с подкреплением, способен довести агента до выполнения сложных, многоступенчатых вредоносных сценариев, растянутых на десятки (а то и сотни) шагов, — пишет OpenAI. — Мы также наблюдали новые стратегии атак, которые не встречались ни в ходе внутреннего red teaming с участием людей, ни во внешних отчетах».

Cкриншот, демонстрирующий атаку с помощью внедрения запроса (prompt injection) в браузере OpenAI Atlas
Источник изображения: OpenAI

В одной из демонстраций (частично показанной на изображении выше) OpenAI показала, как их автоматизированный нападающий внедрил вредоносное письмо во входящие пользователя. Когда агент позже просканировал почту, он выполнил скрытые инструкции из письма и отправил сообщение об увольнении вместо автоматического ответа об отсутствии на рабочем месте. Но после обновления безопасности “режим агента” смог распознать попытку инъекции подсказки и уведомить об этом пользователя.

Компания утверждает, что хотя абсолютно надежную защиту от инъекций подсказок обеспечить сложно, она делает ставку на масштабное тестирование и более быстрые циклы исправлений, чтобы укрепить свои системы до появления реальных атак.

Представитель OpenAI отказался сообщить, привело ли обновление Atlas к измеримому снижению числа успешных инъекций, но отметил, что компания работает с внешними партнерами над укреплением защиты Atlas еще до запуска.

Рами Маккарти, главный исследователь по безопасности в компании Wiz, говорит, что обучение с подкреплением действительно позволяет подстраиваться под поведение злоумышленников, однако это лишь часть комплексной задачи.

«Удобный способ оценивать риски в ИИ-системах — это автономность, умноженная на уровень доступа», — говорит Маккарти.

«Агентные браузеры часто оказываются в самой сложной зоне: умеренная степень автономности при очень высоком уровне доступа, — отмечает Маккарти. — Многие актуальные рекомендации отражают именно этот компромисс: например, ограничение доступа к аккаунтам снижает экспозицию, а подтверждение перед важными действиями — уменьшает автономность».

Оба этих подхода OpenAI советует пользователям для минимизации рисков, и представитель компании добавил, что Atlas также обучают всегда запрашивать подтверждение пользователя перед отправкой сообщений или выполнением платежей. OpenAI также рекомендует формулировать для агентов конкретные инструкции, а не просто открывать им доступ ко всей почте с указанием «сделать всё необходимое».

«Чем шире полномочия у агента, тем проще скрытому или вредоносному контенту повлиять на него — даже при наличии защитных мер», — отмечает OpenAI.

Хотя OpenAI заявляет, что защита пользователей Atlas от инъекций подсказок — приоритетная задача, Маккарти предлагает задуматься о том, насколько оправданы риски при использовании подобных браузеров.

«В большинстве повседневных сценариев агентные браузеры пока не приносят достаточной пользы, чтобы оправдать существующий уровень риска, — подчеркнул Маккарти. — Риски высоки, учитывая доступ к чувствительным данным — почте и платежной информации, хотя именно этот доступ и делает их столь мощными. Баланс со временем изменится, но на сегодняшний день компромисс всё еще весьма ощутим».

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

4 комментария к “Слабое звено ИИ-браузеров: OpenAI делится подробностями о борьбе с инъекциями подсказок

  1. По-моему от ИИ вреда больше чем пользы. Особенно для простых людей. Власти и элиты по всему миру благодаря ИИ получили огромный ресурс для контроля своих граждан. И мошенники тоже не отстают, теперь кто угодно может запустить в вашу почту ложную и даже опасную информацию. И если можно проникнуть в почту, то наверное и банковскими картами посредством инъекций тоже можно управлять :(( Киберпанк уже близок.

  2. Инъекции подсказок — это слабое звено ИИ-браузеров, и эта проблема может сохраняться ещё долго.

  3. Если меры не полностью эффективны, пользователи рискуют столкнуться с манипуляциями, что подрывает доверие к ИИ. Кроме того, это может спровоцировать гонку вооружений между хакерами и разработчиками.

  4. Тема действительно актуальная, особенно на фоне роста ИИ-браузеров. Инъекции подсказок выглядят как недооценённая угроза, и хорошо, что OpenAI говорит об этом открыто, а не постфактум. Интересно будет посмотреть, насколько эти меры окажутся эффективными в реальных сценариях и как быстро злоумышленники найдут обходные пути.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять