Capítulo 6. Trabajar con datos clave/valor
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Como cualquier buena herramienta de computación distribuida, Spark se basa en gran medida en el paradigma de pares clave/valor para definir y paralelizar operaciones, transformaciones especialmente amplias que requieren que los datos se redistribuyan entre máquinas. Siempre que queramos realizar operaciones agrupadas en paralelo o cambiar el orden de los registros entre máquinas -ya sea calcular una estadística de agregación o fusionar registros de clientes- la funcionalidad clave/valor de Spark es útil, ya que nos permite paralelizar fácilmente nuestro trabajo. Spark tiene su propia clase PairRDDFunctions
que contiene operaciones definidas sobre RDDs de tuplas. La clase PairRDDFunctions
, disponible mediante conversión implícita, contiene la mayoría de los métodos de Spark para uniones y agregaciones personalizadas. La clase OrderedRDDFunctions
contiene los métodos para ordenar. La clase OrderedRDDFunctions
está disponible para RDDs de tuplas en los que el primer elemento (la clave) tiene una ordenación implícita.
Nota
Existen operaciones similares en Dataset
s, como se explica en "Operaciones agrupadas en conjuntos de datos".
A pesar de su utilidad, las operaciones clave/valor pueden dar lugar a una serie de problemas de rendimiento. De hecho, la mayoría de las operaciones caras de Spark encajan en el paradigma de los ...
Get Chispa de alto rendimiento now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.