Kapitel 7. Pipelines orchestrieren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorangegangenen Kapiteln wurden die Bausteine von Datenpipelines beschrieben, darunter die Dateneingabe, die Datenumwandlung und die Schritte in einer Pipeline für maschinelles Lernen. In diesem Kapitel geht es darum, wie man diese Bausteine oder Schritte "orchestriert" oder miteinander verbindet.

Die Orchestrierung stellt sicher, dass die Schritte in einer Pipeline in der richtigen Reihenfolge ausgeführt werden und dass die Abhängigkeiten zwischen den Schritten richtig verwaltet werden.

Als ich in Kapitel 2 auf die Herausforderung der Orchestrierung von Pipelines eingegangen bin, habe ich auch das Konzept der Workflow-Orchestrierungsplattformen (auch Workflow-Management-Systeme (WMS), Orchestrierungsplattformen oder Orchestrierungs-Frameworks genannt) vorgestellt. In diesem Kapitel werde ich Apache Airflow vorstellen, eines der beliebtesten Frameworks dieser Art. Auch wenn der Großteil des Kapitels den Beispielen in Airflow gewidmet ist, lassen sich die Konzepte auch auf andere Frameworks übertragen. Im weiteren Verlauf des Kapitels stelle ich sogar einige Alternativen zu Airflow vor.

In den späteren Abschnitten dieses Kapitels werden einige fortgeschrittene Konzepte der Pipeline-Orchestrierung besprochen, darunter die Koordination mehrerer Pipelines in deiner Dateninfrastruktur.

Gerichtet azyklische Graphen ...

Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.