Capítulo 7. Análisis de texto consciente del contexto

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los modelos que hemos visto hasta ahora en este libro utilizan una técnica de descomposición en bolsas de palabras, que nos permite explorar las relaciones entre documentos que contienen la misma mezcla de palabras individuales. Esto es increíblemente útil, y de hecho hemos visto que la frecuencia de los tokens puede ser muy eficaz, sobre todo en los casos en que el vocabulario de una disciplina o un tema específicos es suficiente para distinguirlo de otro texto o relacionarlo con él.

Sin embargo, lo que aún no hemos tenido en cuenta es el contexto en el que aparecen las palabras, que instintivamente sabemos que desempeña un papel enorme en la transmisión del significado. Considera las siguientes frases: "le gustaba el olor a rosas" y "olía a rosas". Utilizando las técnicas de normalización de textos presentadas en capítulos anteriores, como la eliminación de stopwords y la lematización, estas dos frases tendrían vectores de bolsa de palabras idénticos, aunque tuvieran significados completamente distintos.

Esto no significa que los modelos de bolsa de palabras deban descartarse por completo y, de hecho, los modelos de bolsa de palabras suelen ser modelos iniciales muy útiles. No obstante, los modelos de menor rendimiento a menudo pueden mejorarse significativamente añadiendo la extracción de características contextuales. ...

Get Análisis de Texto Aplicado con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.