Capítulo 16. Ingeniería de datos = Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Jesse Anderson

Es común la idea errónea de que Apache Spark es todo lo que necesitarás para tu canalización de datos.1 La realidad es que vas a necesitar componentes de tres tipos generales de tecnologías para crear una canalización de datos. Estos tres tipos generales de tecnologías de big data son:

  • Cálculo

  • Almacenamiento

  • Mensajería

Corregir y remediar esta idea errónea es crucial para el éxito de los proyectos de big data o para el propio aprendizaje sobre big data. Spark es sólo una parte de un ecosistema de big data más amplio, necesario para crear canalizaciones de datos.

Dicho de otro modo:

  • Ingeniería de Datos = Computación + Almacenamiento + Mensajería + Codificación + Arquitectura + Conocimiento del Dominio + Casos de Uso

Sistemas por lotes y en tiempo real

Por lo general, tienes que resolver dos problemas básicos en una canalización de datos por lotes. El primero es el cálculo, y el segundo es el almacenamiento de los datos. Spark es una buena solución para gestionar el cálculo por lotes, pero puede resultar más difícil encontrar la solución de almacenamiento adecuada o, más correctamente, identificar las tecnologías de almacenamiento diferentes y optimizadas para tu caso de uso.

Componente de cálculo

La computación ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.