Parte IV. Técnicas avanzadas de streaming en Spark

En esta parte, examinaremos algunas de las aplicaciones más avanzadas que puedes crear utilizando Spark Streaming, concretamente algoritmos de aproximación y algoritmos de aprendizaje automático.¹

Los algoritmos de aproximación ofrecen una ventana para llevar la escalabilidad de Spark al perímetro y ofrecen una técnica para la degradación gradual cuando el rendimiento de los datos es superior a lo que la implementación puede soportar. En esta parte, cubrimos:

Funciones hash y su uso para la construcción de bocetos
El algoritmo HyperLogLog, para contar elementos distintos
El algoritmo Count-Min-Sketch, para responder a consultas sobre los elementos superiores de una estructura

También cubrimos el Digesto T, un útil estimador que nos permite almacenar una representación sucinta de una distribución de valores mediante técnicas de agrupación.

Los modelos de aprendizaje automático ofrecen técnicas novedosas para producir resultados relevantes y precisos en un flujo de datos en constante cambio. En los capítulos siguientes, veremos cómo adaptar algoritmos por lotes bien conocidos, como la clasificación bayesiana ingenua, los árboles de decisión y la agrupación de K-Means para el streaming. Esto nos llevará a cubrir, respectivamente

Bayas ingenuas en línea
Árboles Hoeffding
Agrupación K-Means en línea

Estos algoritmos formarán un complemento de flujo de su tratamiento para Spark en forma de lote en [Laserson2017]. Esto ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Procesamiento de flujos con Apache Spark by Gerard Maas, Francois Garillot

Parte IV. Técnicas avanzadas de streaming en Spark

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly