AIDive
Назад к глоссарию

Что такое несбалансированные данные

ГлоссарийМашинное обучение

ситуация, когда одних классов или случаев в выборке намного больше, чем других

Определение

Несбалансированные данные — это ситуация, когда одних классов или случаев в выборке намного больше, чем других. Проще говоря, важны для оценки моделей, потому что высокая точность может скрывать провал на редких, но важных случаях. В практике ИИ этот термин помогает понять, как устроены данные, модель, инфраструктура или правила вокруг результата. Например, модель выявления мошенничества видит тысячи обычных операций и очень мало реальных атак.

Пример

модель выявления мошенничества видит тысячи обычных операций и очень мало реальных атак

Почему важно

важны для оценки моделей, потому что высокая точность может скрывать провал на редких, но важных случаях. Поэтому термин полезен не только разработчикам, но и редакторам, предпринимателям и пользователям, которые выбирают ИИ-инструмент под конкретную задачу.

Как работает

Метод задает способ обучения, поиска, оценки или преобразования данных. На практике его применяют к конкретной выборке, проверяют метриками, сравнивают с альтернативами и контролируют поведение на новых данных.

Где применяется

Используется при обучении, оценке и настройке моделей, в аналитике, прогнозировании, классификации, поиске закономерностей и сравнении подходов.

Ограничения

простая метрика качества может вводить в заблуждение; нужны правильные метрики, выборки и стратегии балансировки. Кроме того, термин «Несбалансированные данные» нельзя оценивать только по названию: нужны данные, сценарий применения, метрики качества, стоимость и проверка человеком там, где ошибка может навредить.