Definición
La modelo de bolsa de palabras se usa como una representación básica en el procesamiento de texto. El texto se transforma en un conjunto de rasgos: qué palabras aparecen y cuántas veces aparecen. Se pierde el orden de las palabras, así que el método es simple, pero limitado. Resulta útil para clasificación, búsqueda y ejemplos de entrenamiento.
Ejemplo
Para clasificar reseñas, el modelo puede tener en cuenta cuántas veces aparecen las palabras «excelente», «malo», «entrega» y «precio».
Por qué importa
El término es importante como base del procesamiento de texto: aunque muchos métodos modernos son más complejos, la idea de usar rasgos derivados de las palabras ayuda a comprender los orígenes del PLN.
Cómo funciona
Primero se construye un diccionario y luego cada documento se convierte en un vector con una longitud igual al tamaño del diccionario. Los valores indican la presencia o la frecuencia de las palabras.
Dónde se usa
- clasificación de textos
- búsqueda de documentos
- tareas de entrenamiento de PLN
Limitaciones
El método ignora el orden de las palabras, el significado, el contexto y los sinónimos. Frases como «no está mal» y «mal» pueden interpretarse de forma incorrecta.
FAQ
¿Por qué conviene conocer «Bag-of-Words Model»?
El término es importante como base del procesamiento de texto: muchos métodos modernos son más complejos, pero la idea de extraer rasgos a partir de palabras ayuda a entender los inicios del PLN.
