Capítulo 7. Trabajar con datos de texto

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 4, hablamos de dos tipos de características que pueden representar propiedades de los datos: características continuas que describen una cantidad, y características categóricas que son elementos de una lista fija. Hay un tercer tipo de característica que puede encontrarse en muchas aplicaciones, que es el texto. Por ejemplo, si queremos clasificar un mensaje de correo electrónico como correo legítimo o spam, el contenido del correo electrónico contendrá sin duda información importante para esta tarea de clasificación. O quizá queramos conocer la opinión de un político sobre el tema de la inmigración. En este caso, los discursos o tweets de ese individuo podrían proporcionar información útil. En el servicio de atención al cliente, a menudo queremos averiguar si un mensaje es una queja o una consulta. Podemos utilizar el asunto y el contenido de un mensaje para determinar automáticamente la intención del cliente, lo que nos permite enviar el mensaje al departamento adecuado, o incluso enviar una respuesta totalmente automática.

Los datos de texto suelen representarse como cadenas, formadas por caracteres. En cualquiera de los ejemplos que acabamos de dar, la longitud de los datos de texto variará. Esta característica es claramente muy diferente de las características numéricas que hemos analizado hasta ahora, ...

Get Introducción al Aprendizaje Automático con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.