Kapitel 2. Datenstandardisierung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wie wir in Kapitel 1 besprochen haben, müssen wir vor einem erfolgreichen Abgleich oder einer Deduplizierung von Datenquellen sicherstellen, dass unsere Daten einheitlich dargestellt und alle Anomalien entfernt oder korrigiert werden. Wir werden den Begriff Datenstandardisierung verwenden, um sowohl die Umwandlung von Datensätzen in einheitliche Formate als auch die Bereinigung von Daten um nicht hilfreiche zusätzliche Zeichen, die den Abgleichsprozess sonst behindern würden, zu erfassen.
In diesem Kapitel werden wir ein praktisches Beispiel für diesen Prozess durcharbeiten. Wir erstellen unsere Arbeitsumgebung, beschaffen die benötigten Daten, bereinigen sie und führen eine einfache Entitätsauflösung durch, um eine einfache Analyse durchführen zu können. Abschließend werden wir die Leistung unseres Datenabgleichs untersuchen und überlegen, wie wir ihn verbessern können.
Zuerst wollen wir unser Beispiel vorstellen und erklären, warum wir eine Entitätsauflösung brauchen, um es zu lösen.
Beispielproblem
Gehen wir ein Beispielproblem durch, um einige der üblichen Herausforderungen bei der Auflösung von Entitäten zwischen Datenquellen zu verdeutlichen und zu zeigen, warum die Datenbereinigung ein wichtiger erster Schritt ist. Da wir gezwungen sind, öffentlich zugängliche Datenquellen zu verwenden, ist das Beispiel etwas ...
Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.