Критически важной частью процесса обеспечения безопасности в OpenAI является метод «red teaming» — структурированная методология, в рамках которой люди и ИИ изучают потенциальные риски и уязвимости в новых системах.
Ранее OpenAI занималась red teaming преимущественно посредством ручного тестирования, в ходе которого отдельные лица исследовали слабые места. Это было особенно заметно во время тестирования их модели генерации изображений DALL·E 2 в начале 2022 года, когда для выявления потенциальных рисков были приглашены внешние эксперты. С тех пор OpenAI расширила и усовершенствовала свои методологии, включив автоматизированные и смешанные подходы для более комплексной оценки рисков.
«Мы оптимистично настроены и считаем, что сможем использовать более мощный ИИ для масштабирования обнаружения ошибок моделей», — заявили в OpenAI. Этот оптимизм основан на идее, что автоматизированные процессы могут помочь оценить модели и обучить их быть более безопасными, распознавая закономерности и ошибки в большем масштабе.
В своем последнем стремлении к развитию OpenAI делится двумя важными документами о red teaming — белой книгой, в которой подробно описаны стратегии внешнего взаимодействия, и научным исследованием, в котором представлен новый метод автоматизированного red teaming. Эти вклады направлены на укрепление процесса и результатов red teaming, что в конечном итоге приведет к более безопасным и ответственным реализациям ИИ.
По мере того, как ИИ продолжает развиваться, понимание пользовательского опыта и выявление рисков, таких как злоупотребление и нецелевое использование, имеют решающее значение для исследователей и разработчиков. Red teaming предоставляет проактивный метод оценки этих рисков, особенно при дополнении идеями от ряда независимых внешних экспертов. Этот подход не только помогает установить контрольные показатели, но и способствует улучшению оценок безопасности с течением времени.
Человеческий фактор
OpenAI поделилась четырьмя основными шагами в своей белой книге «Подход OpenAI к внешнему red teaming для моделей и систем ИИ» для разработки эффективных кампаний red teaming:
Состав red team: Выбор членов команды основан на целях кампании. Часто в этом участвуют люди с разными точками зрения, например, эксперты в области естественных наук, кибербезопасности и региональной политики, что гарантирует, что оценки охватывают необходимую широту.
Доступ к версиям моделей: уточнение того, к каким версиям модели будут обращаться участники Red Team, может повлиять на результаты. Модели на ранних стадиях могут выявить неотъемлемые риски, в то время как более продвинутые версии могут помочь выявить пробелы в запланированных мерах по снижению рисков безопасности.
Руководство и документация: эффективное взаимодействие во время кампаний основано на четких инструкциях, подходящих интерфейсах и структурированной документации. Это включает описание моделей, существующих мер безопасности, интерфейсов тестирования и руководств по регистрации результатов.
Синтез и оценка данных: после кампании данные оцениваются, чтобы определить, соответствуют ли примеры существующим политикам или требуют новых поведенческих изменений. Затем оцененные данные используются для повторяемых оценок для будущих обновлений.
Недавнее применение этой методологии включало подготовку семейства моделей OpenAI o1 для публичного использования — тестирование их устойчивости к потенциальному неправомерному использованию и оценку их применения в различных областях, таких как планирование реальных атак, естественные науки и исследования ИИ.
Автоматизированный red teaming
Автоматизированный red teaming направлен на выявление случаев, когда ИИ может дать сбой, особенно в вопросах, связанных с безопасностью. Этот метод превосходит все ожидания, быстро генерируя многочисленные примеры потенциальных ошибок. Однако традиционные автоматизированные подходы испытывают трудности с созданием разнообразных и успешных стратегий атак.
Исследование OpenAI представляет «Разнообразное и эффективное red teaming с автоматически генерируемыми вознаграждениями и многошаговым обучением с подкреплением» — метод, который поощряет большее разнообразие стратегий атак при сохранении эффективности.
Этот метод включает использование ИИ для создания различных сценариев, таких как незаконные советы, и обучение моделей red teaming для критической оценки этих сценариев. Процесс поощряет разнообразие и эффективность, способствуя более разнообразным и всесторонним оценкам безопасности.
Несмотря на свои преимущества, red teaming имеет ограничения. Он фиксирует риски в определенный момент времени, которые могут меняться по мере развития моделей ИИ. Кроме того, процесс red teaming может непреднамеренно создавать информационные опасности, потенциально предупреждая злоумышленников об уязвимостях, которые еще не широко известны. Управление этими рисками требует строгих протоколов и ответственного раскрытия информации.
Хотя red teaming продолжает играть ключевую роль в обнаружении и оценке рисков, OpenAI признает необходимость включения более широких общественных точек зрения на идеальное поведение и политику ИИ, чтобы гарантировать соответствие технологии общественным ценностям и ожиданиям.
Источник: Artificial Intelligence News