Capítulo 8. El modelo de programación de flujo estructurado

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Structured Streaming se basa en los fundamentos establecidos sobre las API Spark SQL DataFrames y Datasets de Spark SQL. Al ampliar estas API para soportar cargas de trabajo de streaming, Structured Streaming hereda los rasgos del lenguaje de alto nivel introducidos por Spark SQL, así como las optimizaciones subyacentes, incluido el uso del optimizador de consultas Catalyst y la gestión de memoria de baja sobrecarga y la generación de código proporcionadas por el Proyecto Tungsten. Al mismo tiempo, Structured Streaming está disponible en todas las vinculaciones de lenguaje compatibles con Spark SQL, que son: Scala, Java, Python y R, aunque algunas de las funciones avanzadas de gestión de estados sólo están disponibles actualmente en Scala. Gracias a la representación intermedia de consultas utilizada en Spark SQL, el rendimiento de los programas es idéntico independientemente de la vinculación de lenguaje utilizada.

El Streaming Estructurado introduce la compatibilidad con el tiempo de los eventos en todas las operaciones de ventana y agregación, lo que facilita la programación de lógica que utiliza el tiempo en que se generaron los eventos, en contraposición al tiempo en que entran en el motor de procesamiento, también conocido como tiempo de procesamiento. Aprendiste estos conceptos en "El efecto del ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.