Capítulo 3. Concordancia de texto

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como vimos en en el Capítulo 2, una vez que nuestros datos están depurados y formateados de forma coherente, podemos encontrar entidades coincidentes comprobando las coincidencias exactas entre sus atributos de datos. Si los datos son de alta calidad, y si los valores de los atributos no son repetitivos, comprobar la equivalencia es sencillo. Sin embargo, esto no suele ocurrir con los datos del mundo real.

Podemos aumentar nuestra probabilidad de hacer coincidir todos los registros relevantes utilizando técnicas de coincidencia aproximada (a menudo denominadas difusas). Para los valores numéricos, podemos establecer una tolerancia sobre lo cerca que deben estar los valores. Por ejemplo, una fecha de nacimiento podría coincidir si está dentro de unos pocos días o una ubicación podría coincidir si sus coordenadas están dentro de una cierta distancia. Para los datos textuales, podemos buscar similitudes y diferencias entre cadenas que podrían surgir accidentalmente.

Por supuesto, al aceptar como equivalentes coincidencias no exactas, abrimos la posibilidad de emparejar registros incorrectamente.

En este capítulo, presentaremos algunas técnicas de concordancia de texto utilizadas con frecuencia y luego las aplicaremos a nuestro problema de ejemplo para ver si esto puede mejorar nuestro rendimiento en la resolución de entidades.

Editar ...

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.