Capítulo 10. Exploración de relaciones semánticas con incrustaciones de palabras

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El concepto de similitud es fundamental en todas las tareas de aprendizaje automático. En el Capítulo 5, explicamos cómo calcular la similitud textual basándonos en el modelo de bolsa de palabras . Dados dos vectores TF-IDF de documentos, su similitud coseno puede calcularse fácilmente, y podemos utilizar esta información para buscar, agrupar o clasificar documentos similares.

Sin embargo, el concepto de similitud en el modelo de bolsa de palabras se basa completamente en el número de palabras comunes en dos documentos. Si los documentos no comparten ningún token, el producto punto de los vectores de los documentos y, por tanto, la similitud coseno será cero. Considera los dos comentarios siguientes sobre una nueva película, que se pueden encontrar en una plataforma social:

"Qué película tan maravillosa".

"La película es genial".

Obviamente, los comentarios de tienen un significado similar aunque utilicen palabras completamente distintas. En este capítulo, introduciremos las incrustaciones de palabras como medio para capturar la semántica de las palabras y utilizarlas para explorar las similitudes semánticas dentro de un corpus.

Lo que aprenderás y lo que construiremos

Para nuestro caso de uso suponemos que somos investigadores de mercado y queremos utilizar textos sobre coches ...

Get Planos para el análisis de textos con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.