Capítulo 49. Cuidado con la brecha: tu lago de datos no ofrece garantías ACID

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Einat Orr

La arquitectura moderna de los lagos de datos se basa en el almacenamiento de objetos como lago, utilizando tecnologías de streaming y replicación para verter los datos en el lago, y un rico ecosistema de aplicaciones que consumen datos directamente del lago, o utilizan el lago como su almacenamiento profundo. Esta arquitectura es rentable y permite un alto rendimiento al ingerir o consumir datos.

Entonces, ¿por qué sigue siendo extremadamente difícil trabajar con datos? He aquí algunas razones:

  • Nos falta aislamiento. La única forma de garantizar el aislamiento es utilizar permisos o copiar los datos. Utilizar permisos reduce nuestra capacidad de maximizar el valor de nuestros datos, al permitir el acceso a cualquiera que pueda beneficiarse de ellos. Copiar no es manejable, ya que entonces puedes perder la pista de qué está dónde en tu lago.

  • No tenemos atomicidad, es decir, no podemos confiar en que las transacciones se realicen de forma segura. Por ejemplo, no hay forma nativa de garantizar que nadie empiece a leer una colección antes de que haya terminado de escribir.

  • No podemos garantizar la coherencia entre colecciones (y, en algunos casos, la coherencia incluso para una ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.