Capítulo 15. Cómo se ejecuta Spark en un clúster

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Así, en nos hemos centrado en las propiedades de Spark como interfaz de programación. Hemos hablado de cómo las API estructuradas toman una operación lógica, la descomponen en un plan lógico y lo convierten en un plan físico que, en realidad, consiste en operaciones de Conjunto de Datos Distribuidos Resilientes (RDD) que se ejecutan en todo el clúster de máquinas. Este capítulo se centra en lo que ocurre cuando Spark ejecuta ese código. Hablamos de ello de una forma agnóstica a la implementación: no depende ni del gestor de clúster que estés utilizando ni del código que estés ejecutando. Al fin y al cabo, todo el código Spark se ejecuta de la misma manera.

Este capítulo abarca varios temas clave:

  • Arquitectura y componentes de una aplicación Spark

  • El ciclo de vida de una aplicación Spark dentro y fuera de Spark

  • Importantes propiedades de ejecución de bajo nivel, como el pipelining

  • Qué se necesita para ejecutar una aplicación Spark, como introducción al Capítulo 16.

Empecemos por la arquitectura.

La arquitectura de una aplicación Spark

En, Capítulo 2, hablamos de algunos de los componentes de alto nivel de una Aplicación Spark. Repasémoslos de nuevo:

El controlador Spark

El controlador es el proceso "en el asiento del conductor" de tu Aplicación Spark. Es el controlador de la ejecución de una Aplicación ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.