Что такое инъекция инструкций
атака на ИИ-приложение, при которой вредоносный текст заставляет модель игнорировать исходные правила или раскрывать лишнюю информацию
Определение
Инъекция инструкций — это атака на ИИ-приложение, при которой вредоносный текст заставляет модель игнорировать исходные правила или раскрывать лишнюю информацию. Проще говоря, это один из ключевых рисков ИИ-приложений с внешними документами, поиском, агентами и доступом к инструментам. Например, в веб-страницу добавляют скрытую команду, и ассистент при чтении страницы пытается выполнить её вместо системных правил.
Пример
в веб-страницу добавляют скрытую команду, и ассистент при чтении страницы пытается выполнить её вместо системных правил
Почему важно
Это один из ключевых рисков ИИ-приложений с внешними документами, поиском, агентами и доступом к инструментам.
Как работает
Пользователь задаёт инструкцию, примеры и контекст, а модель пытается применить их к текущей задаче без гарантии постоянного запоминания. В случае термина «Инъекция инструкций» важно показать не только техническое определение, но и то, как это проявляется в реальном продукте, данных, интерфейсе или процессе внедрения.
Где применяется
Используется пользователями при выборе чат-ботов, формулировании запросов, работе с контекстом, проверке ответов и сравнении ИИ-сервисов.
Ограничения
Пользовательские приёмы не заменяют проверку фактов и ограничений модели. Даже хороший запрос не гарантирует правильный результат. Для «Инъекция инструкций» особенно важно проверять качество на своей задаче, потому что демонстрация, общий рейтинг или одно определение не гарантируют пригодность инструмента.
