Kapitel 5. Verbesserung der Datenqualität

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wenn die meisten Menschen das Wort Datenqualität hören, denken sie an Daten, die korrekt und sachlich sind. In den Bereichen Datenanalyse und Data Governance hat Datenqualität eine Reihe von differenzierteren Merkmalen. Es reicht nicht aus, korrekt zu sein, wenn nicht alle Details verfügbar sind (z. B. Felder in einer Transaktion). Datenqualität wird auch im Kontext eines Anwendungsfalls gemessen, wie wir noch erklären werden. Beginnen wir damit, die Merkmale der Datenqualität zu untersuchen.

Was ist Datenqualität?

Vereinfacht gesagt, ist Datenqualität die Einstufung bestimmter Daten nach Genauigkeit, Vollständigkeit (alle Spalten haben Werte) und Aktualität. Wenn du mit großen Datenmengen arbeitest, werden die Daten in der Regel auf automatisierte Weise erfasst und verarbeitet. Wenn du über Datenqualität nachdenkst, ist es gut, darüber zu sprechen:

Genauigkeit
Ob die erfassten Daten tatsächlich korrekt waren. Ein Fehler bei der Dateneingabe, der dazu führt, dass mehrere Nullen vor dem Komma eingegeben werden, ist beispielsweise ein Problem der Genauigkeit. Doppelte Daten sind ebenfalls ein Beispiel für ungenaue Daten.
Vollständigkeit
Ob alle erfassten Datensätze vollständig sind, d.h. ob es keine Spalten mit fehlenden Informationen gibt. Wenn du z. B. Kundendatensätze verwaltest, musst du sicherstellen, ...

Get Data Governance: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.