AIDive
Назад к глоссарию

Что такое утечка данных при обучении

ГлоссарийМашинное обучение

Ошибка, когда в обучение или проверку модели попадает информация, недоступная в реальном использовании.

Определение

Утечка данных при обучении — это ошибка, когда в обучение или проверку модели попадает информация, недоступная в реальном использовании. Если говорить проще, это понятие помогает обучать модели, сравнивать подходы и снижать риск ошибок на новых данных. Практический смысл в том, чтобы понимать, какие возможности у инструмента действительно нужны, какие данные ему понадобятся и какие ограничения стоит проверить до внедрения.

Пример

Модель прогноза оттока случайно получает признак, который появляется уже после ухода клиента, и показывает нереально высокое качество.

Почему важно

Утечка данных делает метрики обманчивыми и может привести к провалу после запуска. Это помогает выбирать ИИ-инструменты не по громким обещаниям, а по тому, как они работают в реальной задаче.

Как работает

Сначала задачу переводят в данные и метрики, затем модель обучают, проверяют на отдельной выборке и сравнивают с альтернативами. В случае термина «Утечка данных при обучении» важно отдельно смотреть на данные, критерии качества и условия применения.

Где применяется

Используется при обучении, тестировании и настройке моделей, в автоподборе параметров, прогнозировании, классификации и рекомендательных системах.

Ограничения

Главное ограничение — зависимость от данных, метрик и условий проверки. Хороший результат на тесте не всегда означает надежную работу в реальном продукте.