Parte IV. Técnicas avanzadas de streaming en Spark

En esta parte, examinaremos algunas de las aplicaciones más avanzadas que puedes crear utilizando Spark Streaming, concretamente algoritmos de aproximación y algoritmos de aprendizaje automático.1

Los algoritmos de aproximación ofrecen una ventana para llevar la escalabilidad de Spark al perímetro y ofrecen una técnica para la degradación gradual cuando el rendimiento de los datos es superior a lo que la implementación puede soportar. En esta parte, cubrimos:

  • Funciones hash y su uso para la construcción de bocetos

  • El algoritmo HyperLogLog, para contar elementos distintos

  • El algoritmo Count-Min-Sketch, para responder a consultas sobre los elementos superiores de una estructura

También cubrimos el Digesto T, un útil estimador que nos permite almacenar una representación sucinta de una distribución de valores mediante técnicas de agrupación.

Los modelos de aprendizaje automático ofrecen técnicas novedosas para producir resultados relevantes y precisos en un flujo de datos en constante cambio. En los capítulos siguientes, veremos cómo adaptar algoritmos por lotes bien conocidos, como la clasificación bayesiana ingenua, los árboles de decisión y la agrupación de K-Means para el streaming. Esto nos llevará a cubrir, respectivamente

  • Bayas ingenuas en línea

  • Árboles Hoeffding

  • Agrupación K-Means en línea

Estos algoritmos formarán un complemento de flujo de su tratamiento para Spark en forma de lote en [Laserson2017]. Esto ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.