Prefacio

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

El objetivo de este libro es proporcionar a los profesionales de los datos instrucciones prácticas sobre cómo configurar Delta Lake y empezar a utilizar sus características únicas. Este libro está pensado para un público que se ajuste a alguno de los siguientes perfiles:

  • Profesionales de datos con experiencia en Spark

  • Profesionales de los datos que no estén familiarizados con Delta Lake o sean nuevos en ella y necesiten una introducción a la tecnología, los problemas que resuelve, sus principales características y terminología, así como la forma de empezar a utilizarla

  • Profesionales de los datos que deseen conocer las características y ventajas de las modernas arquitecturas de lago

Es importante señalar que este libro y las características tratadas se aplican al marco de código abierto Delta Lake (Delta Lake OSS). Las características y optimizaciones propietarias que algunas empresas ofrecen en torno a Delta Lake se consideran fuera del alcance de este libro.

En primer lugar, explicamos por qué Delta Lake es una herramienta importante para crear plataformas de datos empresariales modernas y soluciones de ciencia de datos e IA, seguido de instrucciones sobre cómo configurar Delta Lake con Spark. Cada uno de los capítulos siguientes te guiará a través de las funciones y operaciones fundamentales de Delta Lake mediante instrucciones paso a paso y ejemplos del mundo real.

Los ejemplos de código del libro van desde fragmentos que pueden utilizarse en un shell PySpark hasta los diseñados para ejecutarse con un cuaderno completo de extremo a extremo. En este libro, todos los fragmentos de código estarán en Python, SQL y, cuando sea necesario, comandos de shell.

Se proporciona un repositorio GitHub para ayudar a los lectores a seguir el libro. En el repositorio se proporcionan conjuntos de datos, archivos y ejemplos de código, a los que se hace referencia a lo largo del libro. A continuación se indican algunas cosas importantes a tener en cuenta sobre el uso del repositorio de GitHub:

Muestras de código

Los ejemplos de código están organizados en el repositorio por capítulos, y para la mayoría de los capítulos se prevé la ejecución de un script de inicialización del capítulo antes de ejecutar cualquier código relacionado con ese capítulo en particular. Este código de inicialización del capítulo es necesario antes de ejecutar el código para configurar las tablas Delta y los conjuntos de datos adecuados para demostrar mejor los temas que se están tratando. Estos scripts de inicialización del capítulo se indican explícitamente en el texto del libro antes de ejecutar el primer conjunto de código de muestra de un capítulo determinado.

Archivos de datos de ejemplo de código

Los archivos de datos necesarios para ejecutar los ejemplos de código proporcionados están en el repositorio de GitHub. Los archivos de datos del repositorio de GitHub proceden de los populares registros de viajes en taxi Amarillo y Verde de la ciudad de Nueva York. Estos archivos fueron descargados y curados para una demostración eficaz a lo largo de este libro.

Método de funcionamiento de Delta Lake para este libro

El método para ejecutar Delta Lake a efectos de este libro y el código en el repositorio GitHub proporcionado es Databricks Community Edition. Se eligió Databricks Community Edition para desarrollar y ejecutar los ejemplos de código porque es gratuito, simplifica la configuración de Spark y Delta Lake, y no requiere tu propia cuenta en la nube ni que proporciones recursos informáticos o de almacenamiento en la nube. Las tablas Delta, los conjuntos de datos y los ejemplos de código utilizados en este libro y en el repositorio de GitHub se desarrollaron y probaron en Databricks Community Edition alojado en Azure, utilizando Azure Data Lake Storage Gen2 como capa de almacenamiento subyacente y Databricks Runtime 12.2 LTS. Ten en cuenta que si estás ejecutando los ejemplos de código en Spark y Delta Lake fuera de Databricks (por ejemplo, en tu máquina local), entonces habrá opciones adicionales de instalación, configuración y posible sintaxis del editor que el lector deberá tener en cuenta.

Cuadernos

También verás el término cuaderno. Un cuaderno se refiere a un cuaderno Databricks, la herramienta principal para desarrollar código y presentar resultados a lo largo del libro.

Lenguajes de código

Delta Lake admite varios lenguajes (Scala, Java, Python y SQL) para diversas funcionalidades. Este libro se centrará principalmente en Python y SQL. Los ejemplos de código proporcionarán código en el lenguaje que se considere más apropiado para el tema tratado. No siempre se proporcionarán alternativas para una funcionalidad similar en otros lenguajes. Consulta la documentación de Delta Lake para ver funciones similares en lenguajes alternativos.

Para los fragmentos de código utilizados a lo largo de este libro, el lenguaje por defecto es Python. Para indicar el uso de un lenguaje distinto de Python en un fragmento de código, verás comandos mágicos de lenguaje, es decir, %<language> (por ejemplo, %sql). Puedes asumir que los fragmentos de código sin un comando mágico de lenguaje están utilizando Python.

Cómo contactar con nosotros

Dirige tus comentarios y preguntas sobre este libro a la editorial:

Tenemos una página web para este libro, donde se enumeran erratas, ejemplos y cualquier información adicional. Puedes acceder a esta página en https://oreil.ly/delta-lake-up-and-running-1e.

Para obtener noticias e información sobre nuestros libros y cursos, visita https://oreilly.com.

Encuéntranos en LinkedIn: https://linkedin.com/company/oreilly-media.

Síguenos en Twitter: https://twitter.com/oreillymedia.

Míranos en YouTube: https://youtube.com/oreillymedia.

Convenciones utilizadas en este libro

En este libro se utilizan las siguientes convenciones tipográficas:

Cursiva

Indica nuevos términos, URL, direcciones de correo electrónico, nombres de archivo y extensiones de archivo.

Constant width

Se utiliza en los listados de programas, así como dentro de los párrafos para referirse a elementos del programa como nombres de variables o funciones, bases de datos, tipos de datos, variables de entorno, sentencias y palabras clave.

Constant width bold

Muestra comandos u otros textos que deben ser tecleados literalmente por el usuario.

Constant width italic

Muestra el texto que debe sustituirse por valores proporcionados por el usuario o por valores determinados por el contexto.

Consejo

Este elemento significa un consejo o sugerencia.

Nota

Este elemento significa una nota general.

Advertencia

Este elemento indica una advertencia o precaución.

Utilizar ejemplos de código

El material complementario (ejemplos de código, ejercicios, etc.) se puede descargar en https://github.com/benniehaelen/delta-lake-up-and-running.

Si tienes una pregunta técnica o un problema al utilizar los ejemplos de código, envía un correo electrónico a

Este libro está aquí para ayudarte a hacer tu trabajo. En general, si se ofrece código de ejemplo con este libro, puedes utilizarlo en tus programas y documentación. No es necesario que te pongas en contacto con nosotros para pedirnos permiso, a menos que estés reproduciendo una parte importante del código. Por ejemplo, escribir un programa que utilice varios trozos de código de este libro no requiere permiso. Vender o distribuir ejemplos de los libros de O'Reilly sí requiere permiso. Responder a una pregunta citando este libro y el código de ejemplo no requiere permiso. Incorporar una cantidad significativa de código de ejemplo de este libro en la documentación de tu producto sí requiere permiso.

Agradecemos, pero generalmente no exigimos, la atribución. Una atribución suele incluir el título, el autor, la editorial y el ISBN. Por ejemplo "Delta Lake: Up and Running " de Bennie Haelen y Dan Davis (O'Reilly). Copyright 2024 O'Reilly Media, Inc., 978-1-098-13972-8".

Si crees que el uso que haces de los ejemplos de código no se ajusta al uso legítimo o al permiso concedido anteriormente, no dudes en ponerte en contacto con nosotros en

Aprendizaje en línea O'Reilly

Nota

Durante más de 40 años, O'Reilly Media ha proporcionado formación tecnológica y empresarial, conocimientos y perspectivas para ayudar a las empresas a alcanzar el éxito.

Nuestra red única de expertos e innovadores comparten sus conocimientos y experiencia a través de libros, artículos y nuestra plataforma de aprendizaje online. La plataforma de aprendizaje en línea de O'Reilly te ofrece acceso bajo demanda a cursos de formación en directo, rutas de aprendizaje en profundidad, entornos de codificación interactivos y una amplia colección de textos y vídeos de O'Reilly y de más de 200 editoriales. Para más información, visita https://oreilly.com.

Acuse de recibo

Queremos dar las gracias a nuestros revisores técnicos: Adam Breindel, Andrei Ionescu y Jobenish Purushothaman. Su atención al detalle, sus comentarios y sus atentas sugerencias han desempeñado un papel fundamental a la hora de ayudar a dar forma al contenido de este libro, garantizando al mismo tiempo su exactitud. Sin duda, sus aportaciones han contribuido a hacer de este libro un producto de mayor calidad que constituirá un valioso recurso para los lectores.

Aparte de los revisores técnicos, también recibimos valiosos comentarios de otros colaboradores a lo largo del proceso de redacción del libro. Nos gustaría dar las gracias a los siguientes: Alex Ott, Anthony Krinsky, Artem Sheiko, Bilal Obeidat, Carlos Morillo, Eli Swanson, Guillermo G. Schiava D'Albano, Jitesh Soni, Joe Widen, Kyle Hale, Marco Scagliola, Nick Karpov, Nouran Younis, Ori Zohar, Sirui Sun, Susan Pierce y Youssef Mrini. Sin sus aportaciones, este libro no sería el valioso recurso que es.

Por último, nos gustaría dar las gracias a la comunidad de código abierto. Sin las contribuciones y los esfuerzos colectivos de la comunidad, Delta Lake no tendría las notables capacidades que tiene hoy. El compromiso de la comunidad con la innovación ayuda a impulsar la evolución y el impacto de Delta Lake, y nosotros, junto con otros, no podemos expresar nuestro agradecimiento y aprecio lo suficiente.

Bennie Haelen

Me gustaría dar las gracias a mi maravillosa esposa Jenny. Siempre has estado ahí para animarme y motivarme a lo largo de la escritura de este libro; eres la gran inspiración de mi vida. Gracias a mi coautor Dan por estar ahí durante los periodos difíciles de mi vida. Dan, tienes una gran carrera por delante. Gracias a mis amigos y colegas a los que siempre puedo acudir con preguntas desafiantes, sin importar la hora del día.

Dan Davis

Me gustaría dar las gracias a mi familia. Vuestro continuo aliento y apoyo han constituido los cimientos de mi viaje hasta donde estoy hoy y al escribir este libro. Gracias por ser siempre una fuente constante de motivación. También me gustaría dar las gracias a todos mis amigos y colegas de los que he aprendido y que me han proporcionado apoyo continuamente a lo largo del camino. No puedo agradecer lo suficiente a mi coautor, Bennie. Gracias por ser el mentor que eres, proporcionarme apoyo y presentarme grandes oportunidades. Y por último, pero no por ello menos importante, me gustaría dar las gracias a mi querido compañero, que siempre está a mi lado lo disfrute o no, mi perro River.

Get Lago Delta: En marcha now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.