Capítulo 10. Spark SQL

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Spark SQL es posiblemente una de las características más importantes y potentes de Spark. Este capítulo presenta los conceptos básicos de Spark SQL que necesitas comprender. Este capítulo no reescribirá la especificación ANSI-SQL ni enumerará cada tipo de expresión SQL. Si lees otras partes de este libro, te darás cuenta de que intentamos incluir código SQL siempre que incluimos código DataFrame para facilitar las referencias cruzadas con ejemplos de código. Encontrarás otros ejemplos en el apéndice y en las secciones de referencia.

En pocas palabras, con Spark SQL puedes ejecutar consultas SQL contra vistas o tablas organizadas en bases de datos. También puedes utilizar funciones del sistema o definir funciones de usuario y analizar planes de consulta para optimizar sus cargas de trabajo. Esto se integra directamente en la API de DataFrame y Dataset, y como vimos en capítulos anteriores, puedes elegir expresar algunas de tus manipulaciones de datos en SQL y otras en DataFrames y se compilarán con el mismo código subyacente.

¿Qué es SQL?

SQL o Lenguaje de Consulta Estructurado es un lenguaje específico del dominio para expresar operaciones relacionales sobre datos. Se utiliza en todas las bases de datos relacionales, y muchas bases de datos "NoSQL" crean su dialecto SQL para facilitar el trabajo con sus bases de datos. SQL está en todas partes, ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.