Kapitel 2. Stream-Processing-Modell

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In schlagen wir in diesem Kapitel eine Brücke zwischen dem Begriff des Datenstroms - einer Quelle von Daten "in Bewegung" - und den Primitiven und Konstrukten der Programmiersprache, mit denen wir die Verarbeitung von Datenströmen ausdrücken können.

Wir wollen zunächst einfache, grundlegende Konzepte beschreiben, bevor wir uns damit befassen, wie Apache Spark sie darstellt. Konkret wollen wir die folgenden Komponenten der Stream-Verarbeitung behandeln:

  • Datenquellen

  • Stream-Processing-Pipelines

  • Datensenken

Anschließend zeigen wir, wie diese Konzepte auf das spezielle Stream-Processing-Modell von Apache Spark übertragen werden.

Als Nächstes beschreiben wir die zustandsbehaftete Verarbeitung von Datenströmen, eine Art der Datenstromverarbeitung, bei der vergangene Berechnungen in Form eines Zwischenzustands festgehalten werden müssen, um neue Daten verarbeiten zu können. Zum Schluss betrachten wir Datenströme mit Zeitstempeln und die grundlegenden Begriffe, die sich mit Fragen wie "Was mache ich, wenn die Reihenfolge und die Pünktlichkeit des Eintreffens dieser Ereignisse nicht den Erwartungen entsprechen?

Quellen und Senken

Wie bereits erwähnt, ist Apache Spark in jedem seiner beiden Streaming-Systeme - Structured Streaming und Spark Streaming - ein Programmier-Framework mit APIs in den Programmiersprachen ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.