Capítulo 9. Patrones clásicos de diseño de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En este capítulo se tratan algunos de los patrones de diseño de datos más fundamentales y clásicos utilizados en la gran mayoría de las soluciones de big data. Aunque se trata de patrones de diseño sencillos, son útiles para resolver muchos problemas de datos comunes, y he utilizado muchos de ellos en ejemplos de este libro. En este capítulo, presentaré implementaciones en PySpark de los siguientes patrones de diseño:

  1. Entrada-Mapa-Salida

  2. Entrada-Filtro-Salida

  3. Entrada-Mapa-Reducción-Salida

  4. Entrada-Múltiples-Mapas-Reducción-Salida

  5. Entrada-Mapa-Combinador-Reducción-Salida

  6. Entrada-MapaParticiones-Reducción-Salida

  7. Entrada-Invertida-Index-Patrón-Salida

Antes de empezar, sin embargo, me gustaría abordar la cuestión de qué entiendo por "patrones de diseño". En informática e ingeniería de software, dado un problema común, un patrón de diseño es una solución reutilizable a ese problema. Es una plantilla o buenas prácticas sobre cómo resolver un problema, no un diseño acabado que pueda transformarse directamente en código. Los patrones presentados en este capítulo te equiparán para manejar una amplia gama de tareas de análisis de datos.

Nota

Los patrones de diseño de datos tratados en este capítulo son ...

Get Algoritmos de datos con Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.