Capítulo 47. Metadatos ≥ Datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Jonathan Seidman

Mi primera experiencia real en el mundo de los macrodatos fue ayudar a implementar clusters de Apache Hadoop en Orbitz Worldwide, un sitio web de viajes con mucho tráfico.1 Una de las primeras cosas que hicimos fue implementar Apache Hive en nuestros clusters y dar acceso a nuestros desarrolladores para que empezaran a crear aplicaciones y análisis sobre esta infraestructura.

Todo esto era genial, en el sentido de que nos permitía desbloquear toneladas de valor de todos estos datos que estábamos recopilando. Sin embargo, al cabo de un tiempo, nos dimos cuenta de que acabábamos teniendo numerosas tablas Hive que representaban básicamente las mismas entidades. Desde el punto de vista de los recursos, esto no era tan terrible, ya que incluso en la época oscura de los aughts, el almacenamiento era bastante barato. Sin embargo, el tiempo de nuestros usuarios no era barato, así que todo el tiempo que pasaban creando nuevas tablas Hive, o buscando en nuestras tablas existentes para encontrar los datos que necesitaban, era tiempo que no estaban dedicando a obtener información de los datos.

La lección que aprendimos en Orbitz fue que es un error dejar la planificación de la gestión de datos para después. En su lugar, es mejor ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.