Abrir menú de navegación
AIDive
ES
Iniciar sesión
Volver al glosario

Qué es Bag-of-Words Model

Procesamiento del lenguaje natural

Forma sencilla de representar un texto como un conjunto de palabras y sus frecuencias, sin tener en cuenta el orden ni la gramática.

Definición

La modelo de bolsa de palabras se usa como una representación básica en el procesamiento de texto. El texto se transforma en un conjunto de rasgos: qué palabras aparecen y cuántas veces aparecen. Se pierde el orden de las palabras, así que el método es simple, pero limitado. Resulta útil para clasificación, búsqueda y ejemplos de entrenamiento.

Ejemplo

Para clasificar reseñas, el modelo puede tener en cuenta cuántas veces aparecen las palabras «excelente», «malo», «entrega» y «precio».

Por qué importa

El término es importante como base del procesamiento de texto: aunque muchos métodos modernos son más complejos, la idea de usar rasgos derivados de las palabras ayuda a comprender los orígenes del PLN.

Cómo funciona

Primero se construye un diccionario y luego cada documento se convierte en un vector con una longitud igual al tamaño del diccionario. Los valores indican la presencia o la frecuencia de las palabras.

Dónde se usa

  • clasificación de textos
  • búsqueda de documentos
  • tareas de entrenamiento de PLN

Limitaciones

El método ignora el orden de las palabras, el significado, el contexto y los sinónimos. Frases como «no está mal» y «mal» pueden interpretarse de forma incorrecta.

FAQ

¿Por qué conviene conocer «Bag-of-Words Model»?

El término es importante como base del procesamiento de texto: muchos métodos modernos son más complejos, pero la idea de extraer rasgos a partir de palabras ayuda a entender los inicios del PLN.