Capítulo 2. Una suave introducción a Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora que hemos terminado nuestra lección de historia sobre Apache Spark, ¡es hora de empezar a utilizarlo y aplicarlo! Este capítulo presenta una suave introducción a Spark, en la que recorreremos la arquitectura central de un clúster, la aplicación Spark y las API estructuradas de Spark mediante DataFrames y SQL. Por el camino, abordaremos la terminología y los conceptos básicos de Spark para que puedas empezar a utilizarlo de inmediato. Empecemos con algunos antecedentes básicos.

Arquitectura básica de Spark

Normalmente, cuando piensas en un "ordenador", piensas en una máquina sentada en tu escritorio en casa o en el trabajo. Esta máquina funciona perfectamente para ver películas o trabajar con software de hojas de cálculo. Sin embargo, como probablemente experimenten muchos usuarios en algún momento, hay algunas cosas que tu ordenador no es lo suficientemente potente como para realizar. Un área especialmente difícil es el procesamiento de datos. Las máquinas individuales no tienen suficiente potencia y recursos para realizar cálculos sobre enormes cantidades de información (o el usuario probablemente no tenga tiempo de esperar a que termine el cálculo). Un clúster, o grupo, de ordenadores agrupa los recursos de muchas máquinas, lo que nos permite utilizar todos los recursos acumulados como si se tratara de un único ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.