Kapitel 2. Daten für die Analyse vorbereiten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Die Schätzungen darüber, wie viel Zeit Datenwissenschaftler/innen mit der Aufbereitung ihrer Daten verbringen, variieren, aber man kann mit Sicherheit sagen, dass dieser Schritt einen großen Teil der Zeit in Anspruch nimmt, die sie mit den Daten arbeiten. Im Jahr 2014 berichtete die New York Times, dass Datenwissenschaftler/innen zwischen 50 und 80 % ihrer Zeit damit verbringen, ihre Daten zu bereinigen und zu ordnen. Eine Umfrage von CrowdFlower aus dem Jahr 2016 ergab, dass Datenwissenschaftler/innen 60 % ihrer Zeit damit verbringen, Daten zu bereinigen und zu organisieren, um sie für die Analyse oder Modellierung vorzubereiten. Die Aufbereitung von Daten ist eine so alltägliche Aufgabe, dass sich dafür Begriffe wie "Data Munging", "Data Wrangling" und "Data Prep" herausgebildet haben ("Mung" ist ein Akronym für "Mash Until No Good", was ich sicherlich auch schon gelegentlich getan habe). Ist diese ganze Datenvorbereitung nur sinnlose Arbeit oder ist sie ein wichtiger Teil des Prozesses?
Die Datenaufbereitung ist einfacher, wenn ein Datensatz über ein Datenwörterbuch verfügt, ein Dokument oder ein Repository mit klaren Beschreibungen der Felder, der möglichen Werte, der Art und Weise, wie die Daten erhoben wurden und wie sie mit anderen Daten zusammenhängen. Leider ist das häufig nicht der Fall. Der ...
Get SQL für die Datenanalyse now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.