Capítulo 5. Spark SQL y DataFrames: Interacción con fuentes de datos externas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el capítulo anterior, exploramos la interacción con las fuentes de datos incorporadas en Spark. También examinamos más de cerca la API DataFrame y su interoperabilidad con Spark SQL. En este capítulo, nos centraremos en cómo Spark SQL interactúa con componentes externos. En concreto, hablaremos de cómo Spark SQL te permite:

  • Utiliza funciones definidas por el usuario tanto para Apache Hive como para Apache Spark.

  • Conecta con fuentes de datos externas, como bases de datos JDBC y SQL, PostgreSQL, MySQL, Tableau, Azure Cosmos DB y MS SQL Server.

  • Trabaja con tipos simples y complejos, funciones de orden superior y operadores relacionales comunes.

También veremos algunas opciones diferentes para consultar Spark utilizando Spark SQL, como el intérprete de comandos Spark SQL, Beeline y Tableau.

Spark SQL y Apache Hive

Spark SQL es un componente fundacional de Apache Spark que integra el procesamiento relacional con la API de programación funcional de Spark. Su génesis se remonta a trabajos anteriores sobre Shark. Shark se construyó originalmente en la base de código Hive sobre Apache Spark1 y se convirtió en uno de los primeros motores de consulta SQL interactivos en sistemas Hadoop. Demostró que era posible tener lo mejor de ambos mundos: tan rápido como un almacén de datos empresarial, ...

Get Aprender Spark, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.