Capítulo 5. Ingeniería de rasgos y similitud sintáctica

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como vimos en el Capítulo 1, el texto es significativamente diferente de los datos estructurados. Una de las diferencias más llamativas es que el texto se representa mediante palabras, mientras que los datos estructurados (en su mayoría) utilizan números. Desde un punto de vista científico, siglos de investigación matemática han conducido a una comprensión extremadamente buena de los números y a métodos sofisticados. La ciencia de la información ha recogido esa investigación matemática, y además se han inventado muchos algoritmos creativos. Los recientes avances en el aprendizaje automático de han generalizado muchos algoritmos que antes eran muy específicos y los han hecho aplicables a muchos casos de uso diferentes. Estos métodos "aprenden" directamente de los datos y proporcionan una visión imparcial.

Para utilizar estos instrumentos, tenemos que encontrar una correspondencia entre texto y números. Teniendo en cuenta la riqueza y complejidad del texto, está claro que un solo número no bastará para representar el significado de un documento. Se necesita algo más complejo. La extensión natural de los números reales en matemáticas es una tupla de números reales, llamada vector. Casi todas las representaciones de texto en el análisis de textos y el aprendizaje automático utilizan vectores; para más información, ...

Get Planos para el análisis de textos con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.