Capítulo 17. El modelo de programación de streaming de Spark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 16, conociste la abstracción central de Spark Streaming, el DStream, y cómo combina un modelo de ejecución por microlotes con una API de programación funcional para ofrecer una base completa para el procesamiento de flujos en Spark.

En este capítulo, exploramos la API que ofrece la abstracción DStream, que permite implementar una lógica empresarial arbitrariamente compleja en streaming. Desde el punto de vista de la API, los DStreams delegan gran parte de su trabajo en la estructura de datos subyacente en Spark, el Conjunto de Datos Distribuido Resistente (RDD). Antes de profundizar en los detalles de la API DStream, vamos a hacer un rápido recorrido por la abstracción RDD. Una buena comprensión del concepto RDD y de la API es esencial para comprender cómo funcionan los DStreams.

Los RDD como abstracción subyacente de los DStreams

Spark tiene una única estructura de datos como elemento base de su API y bibliotecas: RDD. Se trata de una colección polimórfica que representa una bolsa de elementos, en la que los datos a analizar se representan como un tipo Scala arbitrario. El conjunto de datos se distribuye entre los ejecutores del clúster y se procesa utilizando esas máquinas.

Nota

Desde la introducción de Spark SQL, las abstracciones DataFrame y Dataset son las interfaces de programación ...

Get Procesamiento de flujos con Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.