Microsoft раскрывает детали взлома ИИ «Skeleton Key»

Microsoft раскрыла новый тип атаки на искусственный интеллект, названной «Skeleton Key» («Универсальный ключ»), который может обойти защитные механизмы в нескольких генеративных моделях ИИ. Эта техника, способная подрывать большинство встроенных в ИИ систем мер безопасности, подчеркивает критическую необходимость в надежных мерах безопасности на всех уровнях ИИ-стека.

Взлом «Skeleton Key» использует многоступенчатую стратегию, чтобы убедить модель ИИ игнорировать ее встроенные механизмы защиты. Как только атака успешна, модель перестает различать между вредоносными или несанкционированными запросами и легитимными, фактически давая атакующим полный контроль над выходными данными ИИ.

Исследовательская команда Microsoft успешно протестировала технику «Skeleton Key» на нескольких известных моделях ИИ, включая Gemini Pro от Google, GPT-3.5 Turbo и GPT-4 от OpenAI, Mistral Large, Claude 3 Opus от Anthropic и Commander R Plus от Cohere.

Все затронутые модели полностью выполняли запросы по различным категориям риска.

Атака работает путем задания модели инструкции изменять свои поведенческие руководства, убеждая ее отвечать на любой запрос на информацию или контент, при этом выдавая предупреждение, если выходные данные могут считаться оскорбительными, вредными или незаконными. Этот подход, известный как «явное принудительное следование инструкциям», оказался эффективным в нескольких ИИ-системах.

«Обходя меры защиты, ‘Skeleton Key’ позволяет пользователю заставить модель производить обычно запрещенные действия, которые могут варьироваться от создания вредоносного контента до отмены её обычных правил принятия решений», объяснил представитель Microsoft.

В ответ на это открытие Microsoft внедрила несколько защитных мер в своих ИИ-продуктах, включая Copilot AI assistants.

Microsoft заявляет, что также поделилась своими выводами с другими поставщиками ИИ через процедуры ответственного раскрытия информации и обновила управляемые модели Azure AI для обнаружения и блокировки этого типа атаки, используя Prompt Shields.

Для снижения рисков, связанных с «Skeleton Key» и аналогичными техниками взлома, Microsoft рекомендует многоуровневый подход для проектировщиков ИИ-систем:

Фильтрация входных данных для обнаружения и блокировки потенциально вредоносных или опасных запросов
Тщательное проектирование системных сообщений для усиления надлежащего поведения
Фильтрация выходных данных для предотвращения генерации контента, нарушающего критерии безопасности
Системы мониторинга злоупотреблений, обученные на примерах нападений, для обнаружения и смягчения повторяющегося проблемного контента или поведения

Microsoft также обновила свой PyRIT (Python Risk Identification Toolkit), включив в него «Skeleton Key», что позволяет разработчикам и командам безопасности тестировать свои ИИ-системы на предмет этой новой угрозы.

Открытие техники взлома «Skeleton Key» подчеркивает продолжающиеся вызовы в обеспечении безопасности ИИ-систем по мере их распространения в различных приложениях.

Источник: Artificial Intelligence News

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

AI News

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.

Социальные сети автора: