Kapitel 9. Daten mit Pandas bereinigen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den beiden vorangegangenen Kapiteln wurden Pandas und NumPy, die numerische Python-Bibliothek, die es erweitert, vorgestellt. Mit dem grundlegenden Wissen über Pandas können wir nun mit der Bereinigungsphase unserer Toolchain beginnen, die darauf abzielt, die schmutzigen Daten in unserem gescrapten Datensatz zu finden und zu entfernen (siehe Kapitel 6). In diesem Kapitel kannst du dein Pandas-Wissen erweitern, indem du neue Methoden in einem Arbeitskontext kennenlernst.

In Kapitel 8 haben wir die Kernkomponenten von Pandas behandelt: den Datenrahmen, eine programmatische Tabellenkalkulation, die mit den vielen verschiedenen Datentypen der realen Welt umgehen kann, und seinen Baustein, die Reihe, eine heterogene Erweiterung der homogenen ndarray von NumPy. Außerdem haben wir gelernt, wie man von verschiedenen Datenspeichern liest und in sie schreibt, darunter JSON, CSV-Dateien, MongoDB und SQL-Datenbanken. Jetzt werden wir Pandas auf Herz und Nieren prüfen und zeigen, wie es zum Bereinigen schmutziger Daten eingesetzt werden kann. Ich werde die wichtigsten Elemente der Datenbereinigung am Beispiel unseres verschmutzten Nobelpreis-Datensatzes vorstellen.

Ich werde es langsam angehen und die wichtigsten Pandas-Konzepte in einer Arbeitsumgebung vorstellen. Zuerst wollen wir herausfinden, warum das Bereinigen ...

Get Datenvisualisierung mit Python und JavaScript, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.