Capítulo 21. Conceptos básicos del streaming estructurado

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora que hemos cubierto una breve visión general del procesamiento de flujos, vamos a sumergirnos de lleno en el Streaming Estructurado. En este capítulo, volveremos a exponer algunos de los conceptos clave del Streaming Estructurado y luego los aplicaremos con algunos ejemplos de código que muestran lo fácil que es utilizar el sistema.

Conceptos básicos del streaming estructurado

Estructurado Streaming, como comentamos al final del Capítulo 20, es un marco de procesamiento de flujos construido sobre el motor SQL de Spark. En lugar de introducir una API independiente, el Streaming Estructurado utiliza las API estructuradas existentes en Spark (DataFrames, Datasets y SQL), lo que significa que todas las operaciones con las que estás familiarizado allí son compatibles. Los usuarios expresan un cálculo de flujo de la misma forma que escribirían un cálculo por lotes sobre datos estáticos. Al especificar esto, y especificar un destino de flujo, el motor de Flujo Estructurado se encargará de ejecutar tu consulta de forma incremental y continua a medida que lleguen nuevos datos al sistema. A continuación, estas instrucciones lógicas para el cálculo se ejecutan utilizando el mismo motor Catalyst del que se habla en la Parte II de este libro, incluyendo la optimización de la consulta, la generación de código, etc. ...

Get Spark: La Guía Definitiva now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.