Apéndice A. Detalles técnicos de la serialización y la compresión

Los ingenieros de datos que trabajan en la nube suelen liberarse de las complejidades de gestionar sistemas de almacenamiento de objetos. Aun así, necesitan comprender los detalles de los formatos de serialización y deserialización. Como mencionamos en el Capítulo 6 sobre las materias primas del almacenamiento, los algoritmos de serialización y compresión van de la mano.

Formatos de serialización

Los ingenieros de datos disponen de muchos algoritmos y formatos de serialización en . Aunque la abundancia de opciones es una fuente importante de dolor en la ingeniería de datos, también son una enorme oportunidad para mejorar el rendimiento. A veces hemos visto que el rendimiento del trabajo mejora en un factor de 100 simplemente cambiando de la serialización CSV a Parquet. A medida que los datos se mueven a través de una canalización, los ingenieros también gestionarán la reserialización, es decir, la conversión de un formato a otro. A veces, los ingenieros de datos no tienen más remedio que aceptar datos en una forma antigua y desagradable; deben diseñar procesos para deserializar este formato y gestionar las excepciones, y luego limpiar y convertir los datos para un procesamiento y consumo posteriores coherentes y rápidos.

Serialización basada en filas

Como sugiere su nombre, la serialización basada en filas organiza los datos por filas. El formato CSV es un formato arquetípico basado en filas. Para los datos semiestructurados ...

Get Fundamentos de la Ingeniería de Datos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.