Capítulo 8. Validación de datos en pipelines

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Incluso en la canalización de datos mejor diseñada, algo puede salir mal. Muchos problemas pueden evitarse, o al menos mitigarse, con un buen diseño de los procesos, la orquestación y la infraestructura. Sin embargo, para garantizar la calidad y validez de los propios datos, tendrás que invertir en su validación. Lo mejor es asumir que los datos no probados no son seguros para su uso en análisis. Este capítulo analiza los principios de la validación de datos a lo largo de los pasos de una canalización ELT.

Valida pronto, valida a menudo

Aunque bienintencionados, algunos equipos de datos dejan la validación de los datos para el final de una canalización e implementan algún tipo de validación durante la transformación o incluso después de que se hayan completado todas las transformaciones. En este diseño, trabajan con la idea de que los analistas de datos (que suelen ser los propietarios de la lógica de transformación) son los más adecuados para dar sentido a los datos y determinar si hay algún problema de calidad.

En un diseño así, los ingenieros de datos se centran en trasladar los datos de un sistema a otro, orquestar las canalizaciones y mantener la infraestructura de datos. Aunque ése es el papel de un ingeniero de datos, falta una cosa: al ignorar el contenido de los datos que fluyen por cada paso de la canalización, ...

Get Referencia de bolsillo sobre canalizaciones de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.