AIDive
Назад к глоссарию

Что такое сдерживание ИИ

ГлоссарийЭтика и безопасность ИИ

Набор мер, которые ограничивают возможности ИИ-системы, чтобы она не вышла за безопасные рамки поведения.

Определение

Сдерживание ИИ обсуждают в контексте мощных моделей и автономных агентов. Идея в том, чтобы система не могла выполнять опасные действия, получать лишний доступ, скрывать ошибки или обходить надзор. На практике это включает изоляцию среды, ограничения инструментов, проверку запросов, права доступа и мониторинг.

Пример

Экспериментального агента можно запускать в отдельной песочнице без доступа к реальным клиентским данным и платёжным действиям.

Почему важно

Термин важен для компаний, которые подключают ИИ к внешним инструментам: чем больше автономности, тем важнее технические и организационные барьеры.

Как работает

Систему ограничивают по доступам, действиям, данным, времени работы, сетевым возможностям и сценариям. Также фиксируют логи и вводят ручное подтверждение критичных операций.

Где применяется

  • безопасный запуск агентов
  • тестирование моделей
  • защита корпоративных данных

Ограничения

Слишком жёсткие ограничения могут сделать систему бесполезной, а слишком мягкие — опасной. Баланс зависит от риска задачи.