Capítulo 3. Patrones comunes de canalización de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Incluso para los ingenieros de datos experimentados, diseñar una nueva canalización de datos es un viaje nuevo cada vez. Como se explica en el Capítulo 2, las diferentes fuentes de datos e infraestructuras presentan tanto retos como oportunidades. Además, las canalizaciones se construyen con diferentes objetivos y limitaciones. ¿Deben procesarse los datos casi en tiempo real? ¿Pueden actualizarse diariamente? ¿Se modelarán para utilizarlos en un cuadro de mando o como entrada para un modelo de aprendizaje automático?
Afortunadamente, existen algunos patrones comunes en las canalizaciones de datos que han demostrado su eficacia y son extensibles a muchos casos de uso. En este capítulo, definiré estos patrones. Los capítulos siguientes implementarán canalizaciones basadas en ellos.
ETL y ELT
Quizá no haya patrón más conocido que el ETL y su hermano más moderno, el ELT. Ambos son patrones ampliamente utilizados en el almacenamiento de datos y la inteligencia empresarial. En años más recientes, han inspirado patrones de canalización para la ciencia de datos y los modelos de aprendizaje automático que se ejecutan en producción. Son tan conocidos que mucha gente utiliza estos términos como sinónimo de canalizaciones de datos, en lugar de patrones que siguen muchas canalizaciones.
Dadas sus raíces en el almacenamiento ...
Get Referencia de bolsillo sobre canalizaciones de datos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.