Capítulo 2. Cómo funciona Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo presenta el diseño general de Spark, así como su lugar en el ecosistema de los grandes datos.Spark se considera a menudo en una alternativa a Apache MapReduce, ya que Spark también puede utilizarse para el procesamiento de datos distribuidos con Hadoop.1 Como veremos en este capítulo, los principios de diseño de Spark son bastante diferentes de los de MapReduce. A diferencia de Hadoop MapReduce, Spark no necesita ejecutarse en tándem con Apache Hadoop, aunque a menudo es así. Spark ha heredado partes de su API, diseño y formatos compatibles de otros marcos computacionales existentes, en particular DryadLINQ.2 Sin embargo, el funcionamiento interno de Spark, especialmente la forma en que gestiona los fallos, difiere de muchos sistemas tradicionales. La capacidad de Spark para aprovechar la evaluación perezosa dentro de los cálculos en memoria lo hace especialmente único. Los creadores de Spark creen que es el primer lenguaje de programación de alto nivel para el procesamiento rápido y distribuido de datos.3
Para sacar el máximo partido a Spark, es importante comprender algunos de los principios utilizados para diseñarlo y, a un nivel superficial, cómo se ejecutan los programas Spark. En este capítulo, proporcionaremos una visión general del modelo de computación paralela de Spark y una explicación exhaustiva del programador ...
Get Chispa de alto rendimiento now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.