Kapitel 5. Daten mit Python aus dem Web holen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Ein wesentlicher Teil der Fähigkeiten eines Datenvisualisierers besteht darin, den richtigen Datensatz in möglichst sauberer Form zu bekommen. Manchmal bekommst du einen schönen, sauberen Datensatz zum Analysieren, aber oft ist es deine Aufgabe, entweder die Daten zu finden und/oder die gelieferten Daten zu bereinigen.

Und in den meisten Fällen geht es heutzutage darum, Daten aus dem Internet zu bekommen. Es gibt verschiedene Möglichkeiten, dies zu tun, und Python bietet einige großartige Bibliotheken, mit denen du die Daten einfach abrufen kannst.

Die wichtigsten Möglichkeiten, Daten aus dem Internet zu erhalten, sind:

  • Rufe eine Rohdatendatei in einem anerkannten Datenformat (z. B. JSON oder CSV) über HTTP ab.

  • Verwende eine spezielle API, um die Daten zu erhalten.

  • Scrape die Daten, indem du Webseiten über HTTP abrufst und sie lokal nach den benötigten Daten analysierst.

In diesem Kapitel werden wir uns nacheinander mit diesen Möglichkeiten beschäftigen, aber zuerst wollen wir uns mit der besten Python-HTTP-Bibliothek vertraut machen, die es gibt: Requests.

Abrufen von Webdaten mit der Anfragebibliothek

Wie wir in Kapitel 4 gesehen haben, werden die Dateien, die von Webbrowsern zum Aufbau von Webseiten verwendet werden, über das Hypertext Transfer Protocol (HTTP) übertragen, das von Tim Berners-Lee ...

Get Datenvisualisierung mit Python und JavaScript, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.