Capítulo 22. Computación arbitraria en flujo con estado
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Hasta ahora, hemos visto en cómo Spark Streaming puede trabajar sobre los datos que llegan, independientemente de los registros anteriores. En muchas aplicaciones, también nos interesa analizar la evolución de los datos que llegan con respecto a puntos de datos más antiguos. También podría interesarnos seguir los cambios generados por los puntos de datos recibidos. Es decir, podría interesarnos construir una representación con estado de un sistema utilizando los datos que ya hemos visto.
Spark Streaming proporciona varias funciones que nos permiten construir y almacenar conocimiento sobre datos vistos anteriormente, así como utilizar ese conocimiento para transformar nuevos datos.
Estadística a escala de un flujo
A los programadores funcionales les gustan las funciones sin estado. Estas funciones devuelven valores que son independientes del estado del mundo fuera de su definición de función, preocupándose sólo del valor de su entrada.
Sin embargo, una función puede ser sin estado, preocuparse sólo de su entrada y, aun así, mantener una noción de valor gestionado junto con su cómputo, sin romper ninguna regla sobre ser funcional. La idea es que este valor, que representa algún estado intermedio, se utilice en el recorrido de uno o varios argumentos del cómputo, para mantener algún registro simultáneamente con ...
Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.