Capítulo 7. Agrupación

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Hasta ahora, hemos considerado la resolución de entidades entre dos fuentes de datos independientes: un conjunto de datos primario más pequeño que define una población diana a emparejar y un conjunto de datos secundario mucho mayor. También hemos supuesto que las entidades del conjunto de datos primario sólo están presentes una vez y no hay duplicados. Por tanto, no hemos intentado comparar las entidades del conjunto de datos primario entre sí.

Por ejemplo, en el Capítulo 5, cotejamos los parlamentarios del Reino Unido, tal y como aparecen en Wikipedia, con los PSC de empresas del Reino Unido según el Registro Mercantil (Companies House). Supusimos que cada diputado sólo aparecería una vez en la lista de Wikipedia, pero que podría tener un control significativo sobre más de una empresa, es decir, que una única entidad de Wikipedia podría coincidir con varias entidades PSC. Por ejemplo, es probable que el diputado nombrado en Wikipedia como Geoffrey Clifton-Brown sea el mismo individuo que la persona con el mismo nombre que figura como poseedor de un control significativo sobre la empresa con número de referencia 09199367. Lo mismo se aplica a las empresas con referencias 02303726 y 13420433.

Podemos representar estas relaciones de entidad como una red simple con los individuos de nombre similar representados como nodos y las tres comparaciones ...

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.