Capítulo 25. Tuberías de procesamiento de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo se centra en los retos reales de la gestión de canalizaciones de procesamiento de datos de gran profundidad y complejidad. Considera el continuo de frecuencias entre los pipelines periódicos que se ejecutan con muy poca frecuencia hasta los pipelines continuos que nunca dejan de ejecutarse, y analiza las discontinuidades que pueden producir problemas operativos importantes. Se presenta una nueva visión del modelo líder-seguidor como una alternativa más fiable y mejor escalable a la canalización periódica para procesar Big Data.
Origen del patrón de diseño Pipeline
El enfoque clásico del procesamiento de datos consiste en escribir un programa que lea los datos, los transforme de la forma deseada y emita nuevos datos. Normalmente, el programa se programa para que se ejecute bajo el control de un programa de programación periódica, como cron. Este patrón de diseño se denomina canalización de datos. Las canalizaciones de datos se remontan a las co-rutinas [Con63], los archivos de comunicación DTSS [Bul80], la tubería UNIX [McI86] y, más tarde, las canalizaciones ETL,1 pero estos conductos han ganado cada vez más atención con el auge del "Big Data", o "conjuntos de datos tan grandes y complejos que las aplicaciones tradicionales de procesamiento de datos resultan ...
Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.