Capítulo 8. Operaciones con datos en flujo

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Spark Structured Streaming se introdujo por primera vez en Apache Spark 2.0. El principal objetivo del Streaming Estructurado era crear aplicaciones de streaming casi en tiempo real en Spark. Structured Streaming sustituyó a una antigua API de nivel inferior llamada DStreams (Discretized Streams), que se basaba en el antiguo modelo RDD de Spark. Desde entonces, Structured Streaming ha añadido muchas optimizaciones y conectores, incluida la integración con Delta Lake.

Delta Lake está integrado con Spark Structured Streaming a través de sus dos principales operadores: readStream y writeStream. Las tablas Delta pueden utilizarse como fuentes de streaming y como sumideros de streaming. Delta Lake supera muchas limitaciones típicamente asociadas a los sistemas de streaming, incluyendo:

  • Coalescencia de archivos pequeños producidos por la ingesta de baja latencia de

  • Mantener el procesamiento "exactamente una vez" con más de un flujo (o trabajos por lotes concurrentes).

  • Aprovechar el registro de transacciones Delta para descubrir eficazmente qué archivos son nuevos al utilizar archivos para un flujo fuente

Comenzaremos este capítulo con un rápido repaso del Streaming Estructurado de Spark, seguido de una visión general inicial del streaming de Delta Lake y sus capacidades únicas. A continuación, recorreremos un pequeño "¡Hola ...

Get Lago Delta: En marcha now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.