Capítulo 82. Tres importantes conceptos de programación distribuida
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Adi Polak
Muchos ingenieros de datos crean pipelines para operaciones de extracción, transformación y carga (ETL) o de extracción, carga y transformación (ELT). Durante una tarea de transformación (T), puedes estar trabajando con datos que caben en la memoria de una máquina. Sin embargo, a menudo los datos requerirán que utilices marcos/soluciones que aprovechen la computación paralela distribuida para lograr el objetivo deseado. Para ello, muchos investigadores han desarrollado modelos de programación y computación distribuida plasmados en marcos conocidos como Apache Spark, Apache Cassandra, Apache Kafka, TensorFlow, etc. Veamos los tres modelos de programación distribuida más utilizados para el análisis de datos y el aprendizaje automático distribuido.
Algoritmo MapReduce
MapReduce es un algoritmo de cálculo distribuido desarrollado por Google en 2004. Como desarrolladores, especificamos una función de mapa que procesa un par clave/valor para generar un conjunto de pares clave/valor intermedios, y una función de reducción que fusiona todos los valores intermedios asociados a la misma clave intermedia. Este enfoque es una extensión de la estrategia dividir-aplicar-combinar para el análisis de ...
Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.