Что такое модель «мешок слов»
Простой способ представить текст как набор слов и их частот без учёта порядка и грамматики.
Определение
Модель «мешок слов» используется в обработке текста как базовое представление. Текст превращают в набор признаков: какие слова встречаются и сколько раз. Порядок слов при этом теряется, поэтому метод прост, но ограничен. Он полезен для классификации, поиска и учебных примеров.
Пример
Для классификации отзывов модель может учитывать, сколько раз встречаются слова «отлично», «плохо», «доставка» и «цена».
Почему важно
Термин важен как основа обработки текста: многие современные методы сложнее, но идея признаков из слов помогает понять начало NLP.
Как работает
Сначала строят словарь, затем каждый документ превращают в вектор длиной по числу словаря. Значения показывают наличие или частоту слов.
Где применяется
- классификация текстов
- поиск документов
- учебные задачи NLP
Ограничения
Метод игнорирует порядок слов, смысл, контекст и синонимы. Фразы «не плохо» и «плохо» могут быть поняты неверно.
