Capítulo 16. Ingeniería de datos = Spark
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Jesse Anderson
Es común la idea errónea de que Apache Spark es todo lo que necesitarás para tu canalización de datos.1 La realidad es que vas a necesitar componentes de tres tipos generales de tecnologías para crear una canalización de datos. Estos tres tipos generales de tecnologías de big data son:
Cálculo
Almacenamiento
Mensajería
Corregir y remediar esta idea errónea es crucial para el éxito de los proyectos de big data o para el propio aprendizaje sobre big data. Spark es sólo una parte de un ecosistema de big data más amplio, necesario para crear canalizaciones de datos.
Dicho de otro modo:
- Ingeniería de Datos = Computación + Almacenamiento + Mensajería + Codificación + Arquitectura + Conocimiento del Dominio + Casos de Uso
Sistemas por lotes y en tiempo real
Por lo general, tienes que resolver dos problemas básicos en una canalización de datos por lotes. El primero es el cálculo, y el segundo es el almacenamiento de los datos. Spark es una buena solución para gestionar el cálculo por lotes, pero puede resultar más difícil encontrar la solución de almacenamiento adecuada o, más correctamente, identificar las tecnologías de almacenamiento diferentes y optimizadas para tu caso de uso.
Componente de cálculo
La computación ...
Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.