Capítulo 12. Casa del Lago de Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

He hablado brevemente del lago de datos como una armonización de los conceptos de lago de datos y almacén de datos. La idea de un data lakehouse es simplificar las cosas utilizando sólo un lago de datos para almacenar todos tus datos, en lugar de tener también un almacén relacional de datos separado. Para ello, el lago de datos necesita más funcionalidades que sustituyan a las de un RDW. Ahí es donde entra en juego el Lago Delta de Databricks.

Delta Lake es una capa de software de almacenamiento transaccional que se ejecuta sobre un lago de datos existente y añade funciones similares a RDW que mejoran la fiabilidad, la seguridad y el rendimiento del lago. Delta Lake en sí no es almacenamiento. En la mayoría de los casos, es fácil convertir un lago de datos en un Delta Lake; todo lo que tienes que hacer es especificar, cuando almacenes datos en tu lago de datos, que quieres guardarlos en formato Delta Lake (en lugar de en otros formatos, como CSV o JSON).

Entre bastidores, cuando almacenas un archivo utilizando el formato Delta Lake, se almacena de su propia forma especializada, que consiste en archivos Parquet en carpetas y un registro de transacciones para realizar un seguimiento de todos los cambios realizados en los datos. Mientras que los datos reales se asientan en tu lago de datos en un formato similar al que estás acostumbrado, ...

Get Descifrar las arquitecturas de datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.