Capítulo 8. Métodos no supervisados: Modelización de temas y agrupación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Cuando trabajas con un gran número de documentos, una de las primeras preguntas que quieres hacerte sin leerlos todos es "¿De qué hablan?". Te interesan los temas generales de los documentos, es decir, qué palabras (idealmente semánticas) se utilizan a menudo juntas.

El modelado de temas intenta resolver ese reto utilizando técnicas estadísticas para averiguar temas a partir de un corpus de documentos. Dependiendo de tu vectorización (véase el Capítulo 5), puedes encontrar distintos tipos de temas. Los temas consisten en una distribución de probabilidad de características (palabras, n-gramas, etc.).

Los temas normalmente se solapan entre sí; no están claramente separados. Lo mismo ocurre con los documentos: no es posible asignar un documento de forma única a un único tema; un documento siempre contiene una mezcla de temas diferentes. El objetivo del modelado temático no es principalmente asignar un tema a un documento arbitrario, sino encontrar la estructura global del corpus.

A menudo, un conjunto de documentos tiene una estructura explícita que viene dada por categorías, palabras clave, etc. Si queremos echar un vistazo a la composición orgánica del corpus, el modelado temático ayudará mucho a descubrir la estructura latente.

El modelado de temas se conoce desde hace mucho tiempo y ha ganado ...

Get Planos para el análisis de textos con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.