Capítulo 62. Archivos pequeños en un mundo de Big Data

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Adi Polak

No importa si tus canalizaciones de datos manejan flujos en tiempo real basados en eventos, datos casi en tiempo real o trabajos de procesamiento por lotes, cuando trabajes con una cantidad masiva de datos compuestos por archivos pequeños, te enfrentarás a la pesadilla de los archivos pequeños.

¿Qué son los archivos pequeños y por qué son un problema?

Un archivo pequeño es significativamente más pequeño que el tamaño del bloque de almacenamiento. Sí, incluso con almacenes de objetos como Amazon S3 y Azure Blob, existe un tamaño mínimo de bloque. Un archivo significativamente más pequeño puede suponer un desperdicio de espacio en el disco, ya que el almacenamiento se optimiza por tamaño de bloque.

Para entender por qué, exploremos primero cómo funcionan la lectura y la escritura. Para las operaciones de lectura y escritura, existe una llamada API específica. Para las solicitudes de escritura, el almacenamiento escribe tres componentes:

  • Los datos en sí

  • Metadatos con propiedades descriptivas para indexación y gestión de datos

  • Un identificador único global para la identificación en un sistema distribuido

Más objetos almacenados significa más identificadores únicos y más llamadas de E/S para crear, escribir ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.