Kapitel 8. Data Wrangling Service
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Nachdem die Daten nun im Lake aggregiert sind, können wir uns auf das Wrangling der Daten konzentrieren, was in der Regel die Strukturierung, Bereinigung, Anreicherung und Validierung der Daten umfasst. Das Wrangling ist ein iterativer Prozess, um Fehler, Ausreißer, fehlende Werte, Imputationen, Datenungleichgewichte und Datenkodierungen zu bereinigen. Jeder Schritt während des Prozesses zeigt neue Möglichkeiten auf, wie die Daten "umgewandelt" werden können, mit dem Ziel, die robustesten Datenwerte für die Gewinnung von Erkenntnissen zu erhalten. Außerdem liefert das Wrangling Einblicke in die Natur der Daten, so dass wir bessere Fragen stellen können, um Erkenntnisse zu gewinnen.
Datenwissenschaftler verbringen viel Zeit und manuellen Aufwand mit dem Wrangling (wie in Abbildung 8-1 dargestellt). Wrangling ist nicht nur zeitaufwändig, sondern auch unvollständig, unzuverlässig und fehleranfällig und bringt mehrere Probleme mit sich. Erstens berühren Datennutzer bei der explorativen Analyse eine große Anzahl von Datensätzen. Daher ist es wichtig, die Eigenschaften der Daten zu erkennen und die für die Vorbereitung erforderlichen Wrangling-Transformationen schnell zu finden. Derzeit erfolgt die Bewertung der Eigenschaften der Datensätze und die Bestimmung des anzuwendenden Wranglings ad hoc und manuell. Zweitens erfordert ...
Get Die Self-Service-Daten-Roadmap now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.