Capítulo 6. Spark SQL y conjuntos de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En los Capítulos 4 y 5, cubrimos Spark SQL y la API de DataFrame. Vimos cómo conectar con fuentes de datos integradas y externas, echamos un vistazo al motor Spark SQL y exploramos temas como la interoperabilidad entre SQL y DataFrames, la creación y gestión de vistas y tablas, y las transformaciones avanzadas de DataFrame y SQL.

Aunque en el Capítulo 3 presentamos brevemente la API de Conjuntos de datos, hemos pasado por alto los aspectos más destacados de cómo se crean, almacenan, serializan y deserializan los Conjuntos de datos (colecciones distribuidas fuertemente tipadas) en Spark.

En este capítulo, nos adentraremos en la comprensión de los Conjuntos de datos: exploraremos el trabajo con Conjuntos de datos en Java y Scala, cómo gestiona Spark la memoria para dar cabida a las construcciones de Conjuntos de datos como parte de la API de alto nivel, y los costes asociados al uso de Conjuntos de datos.

API única para Java y Scala

Como recordarás del Capítulo 3(Figura 3-1 y Tabla 3-6), los Conjuntos de datos ofrecen una API unificada y singular para objetos fuertemente tipados. Entre los lenguajes soportados por Spark, sólo Scala y Java son fuertemente tipados; por tanto, Python y R sólo soportan la API DataFrame no tipada.

Los conjuntos de datos son objetos tipados específicos del dominio, sobre los que se puede operar ...

Get Aprender Spark, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.