Capítulo 3. Raspado de sitios web y extracción de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

A menudo ocurre que visitas un sitio web y el contenido te parece interesante. Si sólo hay unas pocas páginas, es posible leerlo todo por tu cuenta. Pero en cuanto haya una cantidad considerable de contenido, leerlo todo por tu cuenta no será posible.

Para utilizar los potentes planos de análisis de texto que se describen en este libro, primero tienes que adquirir el contenido. La mayoría de los sitios web no tienen un botón de "descargar todo el contenido", así que tenemos que encontrar una forma inteligente de descargar ("scrapear") las páginas.

Normalmente nos interesa sobre todo la parte del contenido de cada página web individual, y menos la navegación, etc. En cuanto dispongamos localmente de los datos, podremos utilizar potentes técnicas de extracción para diseccionar las páginas en elementos como el título, el contenido y también cierta metainformación (fecha de publicación, autor, etc.).

Lo que aprenderás y lo que construiremos

En este capítulo, te mostraremos cómo adquirir datos HTML de sitios web y utilizar potentes herramientas para extraer el contenido de estos archivos HTML. Lo demostraremos con el contenido de una fuente de datos concreta, el archivo de noticias de Reuters.

En el primer paso, descargaremos de archivos HTML individuales y extraeremos datos de cada uno de ellos con diferentes ...

Get Planos para el análisis de textos con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.