Состязательные атаки на ИИ

Определение

Состязательные атаки показывают, что ИИ может ошибаться не только случайно, но и под давлением продуманного воздействия. Небольшое изменение изображения, текста, аудио или запроса может заставить модель выдать неправильный результат, раскрыть лишнюю информацию или нарушить правила.

Пример

На изображение дорожного знака можно добавить почти незаметный шум, и модель компьютерного зрения начнёт распознавать его как другой знак.

Почему это важно

Термин важен для всех, кто внедряет ИИ в продукт: модель нужно проверять не только на обычных примерах, но и на попытках намеренного обхода.

Как работает

Атакующий ищет слабые места модели: чувствительность к шуму, необычным формулировкам, конфликтующим инструкциям или пограничным примерам.

Где применяется

безопасность моделей
проверка модерации
защита от обхода ИИ-систем

Ограничения

Полностью исключить такие атаки сложно. Защитные методы могут снижать качество на обычных данных или создавать ложное чувство безопасности без регулярного тестирования.

FAQ

Зачем знать термин «Состязательные атаки на ИИ»?