Kapitel 8. Operationen mit Streaming-Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Spark Structured Streaming wurde erstmals in Apache Spark 2.0 eingeführt. Das Hauptziel von Structured Streaming war es, Streaming-Anwendungen auf Spark nahezu in Echtzeit zu erstellen. Structured Streaming ersetzte eine ältere, untergeordnete API namens DStreams (Discretized Streams), die auf dem alten Spark RDD-Modell basierte. Seitdem hat Structured Streaming viele Optimierungen und Konnektoren hinzugefügt, darunter die Integration mit Delta Lake.
Delta Lake ist über seine beiden Hauptoperatoren readStream
und writeStream
in Spark Structured Streaming integriert. Delta-Tabellen können sowohl als Streaming-Quellen als auch als Streaming-Senken verwendet werden. Delta Lake überwindet viele Einschränkungen, die typischerweise mit Streaming-Systemen verbunden sind, z. B:
Zusammenführen kleiner Dateien, die durch mit niedriger Latenz erzeugt werden
Aufrechterhaltung der "Exact-once"-Verarbeitung mit mehr als einem Stream (oder gleichzeitigen Stapelaufträgen)
Nutzung des Delta-Transaktionsprotokolls zur effizienten Erkennung neuer Dateien bei der Verwendung von Dateien für einen Quellstrom
Wir beginnen dieses Kapitel mit einem kurzen Überblick über Spark Structured Streaming, gefolgt von einem ersten Überblick über Delta Lake Streaming und seine einzigartigen Möglichkeiten. Als Nächstes gehen wir durch ein ...
Get Delta Lake: Auf und davon now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.