Kapitel 9. Cloud Entity Resolution Services

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im letzten Kapitel haben wir gesehen, wie wir unseren Entitätsauflösungsprozess so skalieren können, dass er auf einem von der Google Cloud verwalteten Spark-Cluster läuft. Dieser Ansatz ermöglichte es uns, größere Datensätze in angemessener Zeit abzugleichen, erforderte aber, dass wir selbst eine Menge an Einstellungen und Verwaltung vornehmen.

Eine Alternative ist die Nutzung der Entity Resolution API eines Cloud-Providers, der die Arbeit für uns erledigt. Google, Amazon und Microsoft bieten alle diese Dienste an.

In diesem Kapitel nutzen wir den Entity Reconciliation Service, der als Teil der Google Enterprise Knowledge Graph API bereitgestellt wird, um die MCA- und Companies House-Datensätze aufzulösen, die wir in den Kapiteln 6 und 8 untersucht haben. Wir werden:

  • Lade unsere standardisierten Datensätze in das Data Warehouse von Google, BigQuery, hoch.
  • Stelle eine Abbildung unseres Datenschemas auf eine Standard-Ontologie bereit.
  • Rufe die API über die Konsole auf (wir werden die API auch über ein Python-Skript aufrufen).
  • Verwende einige grundlegende SQL-Funktionen, um die Ergebnisse zu verarbeiten.

Um das Kapitel abzuschließen, werden wir untersuchen, wie gut der Dienst funktioniert.

Einführung in BigQuery

BigQuery ist Googles vollständig verwaltetes, serverloses Data Warehouse, das skalierbare ...

Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.