Capítulo 6. Manejo del texto

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

6.0 Introducción

Los datos de texto no estructurados de , como el contenido de un libro o un tweet, son a la vez una de las fuentes más interesantes de características y una de las más complejas de manejar. En este capítulo, trataremos estrategias para transformar el texto en características ricas en información y utilizaremos algunas características listas para usar (denominadas incrustaciones) que se han vuelto cada vez más ubicuas en tareas que implican procesamiento del lenguaje natural (PLN).

Esto no quiere decir que las recetas aquí tratadas sean exhaustivas. Hay disciplinas académicas enteras que se centran en el tratamiento de datos no estructurados, como el texto. En este capítulo, cubriremos algunas técnicas de uso común; el conocimiento de éstas añadirá valiosas herramientas a nuestra caja de herramientas de preprocesamiento. Además de muchas recetas genéricas de procesamiento de texto, también demostraremos cómo puedes importar y aprovechar algunos modelos de aprendizaje automático preentrenados para generar características de texto más ricas.

6.1 Texto de limpieza

Problema

Tienes algunos datos de texto no estructurados de y quieres completar una limpieza básica.

Solución

En el siguiente ejemplo de , examinamos el texto de tres libros y lo limpiamos utilizando las operaciones de cadena básicas de Python, en concreto ...

Get Recetario de Aprendizaje Automático con Python, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.