Kapitel 3. Scraping von Websites und Extraktion von Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Oft passiert es, dass du eine Website besuchst und den Inhalt interessant findest. Wenn es nur ein paar Seiten sind, ist es möglich, alles alleine zu lesen. Aber sobald es eine beträchtliche Menge an Inhalten gibt, wird es nicht mehr möglich sein, alles alleine zu lesen .

Um die in diesem Buch beschriebenen leistungsstarken Textanalyseverfahren nutzen zu können, musst du dir zunächst die Inhalte beschaffen. Auf den meisten Websites gibt es keine Schaltfläche "Alle Inhalte herunterladen", also müssen wir einen cleveren Weg finden, die Seiten herunterzuladen ("scrapen").

Normalerweise interessieren wir uns hauptsächlich für den Inhalt jeder einzelnen Webseite, weniger für die Navigation usw. Sobald wir die Daten lokal zur Verfügung haben, können wir leistungsstarke Extraktionstechniken einsetzen, um die Seiten in Elemente wie Titel, Inhalt und auch einige Metainformationen (Veröffentlichungsdatum, Autor usw.) zu zerlegen.

Was du lernen wirst und was wir bauen werden

In diesem Kapitel zeigen wir dir auf , wie du HTML-Daten von Websites beschaffst und mit leistungsstarken Werkzeugen den Inhalt aus diesen HTML-Dateien extrahierst. Wir zeigen dies anhand von Inhalten aus einer bestimmten Datenquelle, dem Reuters Nachrichtenarchiv.

Im ersten Schritt laden wir einzelne HTML-Dateien herunter und ...

Get Blaupausen für Textanalyse mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.