AIDive
Назад к глоссарию

Что такое модель «мешок слов»

ГлоссарийОбработка естественного языка

Простой способ представить текст как набор слов и их частот без учёта порядка и грамматики.

Определение

Модель «мешок слов» используется в обработке текста как базовое представление. Текст превращают в набор признаков: какие слова встречаются и сколько раз. Порядок слов при этом теряется, поэтому метод прост, но ограничен. Он полезен для классификации, поиска и учебных примеров.

Пример

Для классификации отзывов модель может учитывать, сколько раз встречаются слова «отлично», «плохо», «доставка» и «цена».

Почему важно

Термин важен как основа обработки текста: многие современные методы сложнее, но идея признаков из слов помогает понять начало NLP.

Как работает

Сначала строят словарь, затем каждый документ превращают в вектор длиной по числу словаря. Значения показывают наличие или частоту слов.

Где применяется

  • классификация текстов
  • поиск документов
  • учебные задачи NLP

Ограничения

Метод игнорирует порядок слов, смысл, контекст и синонимы. Фразы «не плохо» и «плохо» могут быть поняты неверно.