Capítulo 9. Servicios de resolución de entidades en la nube

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el último capítulo, vimos cómo escalar nuestro proceso de resolución de entidades para ejecutarlo en un clúster Spark gestionado por Google Cloud. Este enfoque nos permitió hacer coincidir conjuntos de datos más grandes en un tiempo razonable, pero nos obligó a realizar nosotros mismos bastantes tareas de configuración y gestión.

Un enfoque alternativo es utilizar la API de resolución de entidades proporcionada por un proveedor en la nube para que realice el trabajo duro por nosotros. Google, Amazon y Microsoft ofrecen estos servicios.

En este capítulo, utilizaremos el servicio de conciliación de entidades, proporcionado como parte de la API del Grafo de Conocimiento Empresarial de Google, para resolver los conjuntos de datos de la MCA y del Registro Mercantil que examinamos en los Capítulos 6 y 8. Lo haremos:

  • Cargar nuestros conjuntos de datos normalizados en el almacén de datos de Google, BigQuery.
  • Proporcionar una correspondencia de nuestro esquema de datos con una ontología estándar.
  • Invoca la API desde la consola (también invocaremos la API utilizando un script de Python).
  • Utiliza un poco de SQL básico para procesar los resultados.

Para completar el capítulo, examinaremos el rendimiento del servicio.

Introducción a BigQuery

BigQuery es el almacén de datos sin servidor y totalmente gestionado ...

Get Resolución práctica de entidades now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.