Capítulo 16. Presentación de Spark Streaming
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Spark Streaming fue el primer marco de procesamiento de flujos construido sobre las capacidades de procesamiento distribuido de Spark. Hoy en día, ofrece una API madura ampliamente adoptada en la industria para procesar flujos de datos a gran escala.
Spark es, por diseño, un sistema que es realmente bueno procesando datos distribuidos en un clúster de máquinas. La abstracción central de Spark, el Conjunto de Datos Distribuidos Resilientes (RDD), y su API funcional fluida permiten crear programas que tratan los datos distribuidos como una colección. Esa abstracción nos permite razonar sobre la lógica del procesamiento de datos en forma de transformación del conjunto de datos distribuidos. Al hacerlo, reduce la carga cognitiva que antes se requería para crear y ejecutar programas de procesamiento de datos escalables y distribuidos.
Spark Streaming se creó sobre una premisa sencilla pero potente: aplicar las capacidades de computación distribuida de Spark al procesamiento de flujos, transformando un flujo continuo de datos en colecciones de datos discretos sobre los que Spark pudiera operar.
Como podemos ver en la Figura 16-1, la tarea principal de Spark Streaming es tomar los datos del flujo, empaquetarlos en pequeños lotes y proporcionárselos a Spark para su posterior procesamiento. La salida se produce entonces a algún ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.