Kapitel 6. Unternehmens-Matching

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In Kapitel 5 haben wir uns mit der Herausforderung befasst, eine größere Menge von Einzelpersonen anhand ihres Namens und Geburtsdatums aufzulösen. In diesem Kapitel betrachten wir ein anderes typisches Szenario, nämlich die Auflösung von Organisationen, um ein vollständigeres Bild von deren Geschäft zu erhalten.

Wir könnten vielleicht das Gründungsdatum der Organisation als Unterscheidungsmerkmal verwenden, ähnlich wie wir das Geburtsdatum zur Identifizierung von Einzelpersonen verwendet haben. Diese Information über das Gründungsdatum ist jedoch in der Regel nicht in den Unternehmensdaten enthalten; es ist viel üblicher, ein Unternehmen anhand seiner eingetragenen Adresse zu identifizieren.

Deshalb werden wir in diesem Kapitel neben den Firmennamen auch die Adressdaten der Unternehmen nutzen, um mögliche Übereinstimmungen zu ermitteln. Anschließend werden wir überlegen, wie wir einen neuen Datensatz auf Übereinstimmungen mit den ursprünglichen Datenquellen prüfen können, ohne das Modell zeitaufwändig neu trainieren zu müssen.

Beispielproblem

In diesem Kapitel werden wir eine Liste von Firmennamen, die von der britischen Maritime and Coastguard Agency (MCA) veröffentlicht wird, mit den im Companies House Register veröffentlichten grundlegenden Unternehmensdaten abgleichen. Dieses Problem veranschaulicht einige ...

Get Praktische Auflösung von Entitäten now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.