Capítulo 7. Sé intencionado con el modelo de procesamiento por lotes en tus cadenas de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Raghotham Murthy

Si estás ingiriendo registros de datos por lotes y construyendo canalizaciones de datos por lotes, tendrás que elegir cómo crear los lotes a lo largo de un periodo de tiempo. Los lotes pueden basarse en el data_timestamp o en el arrival_timestamp del registro. El data_timestamp es la marca de tiempo de la última actualización incluida en el propio registro. El arrival_timestamp es la marca de tiempo adjunta al registro en función de cuándo lo recibió el sistema de procesamiento.

Modelo de dosificación de ventana temporal de datos

En el modelo de lote de ventana temporal de datos (DTW), se crea un lote para una ventana temporal cuando se han recibido todos los registros con un data_timestamp en esa ventana. Utiliza este modelo de lote cuando:

  • Los datos se extraen de la fuente (en lugar de ser empujados por ella).

  • La lógica de extracción puede filtrar los registros con un data_timestamp fuera de la ventana temporal.

Por ejemplo, utiliza la dosificación DTW cuando extraigas de una base de datos todas las transacciones de una ventana temporal. La dosificación DTW facilita la vida del analista con los análisis, ya que puede haber una garantía de que todos ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.