Kapitel 5. Das verteilte Verarbeitungsmodell von Spark

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Da ein verteiltes Verarbeitungssystem ist, ist Spark auf die Verfügbarkeit und Adressierbarkeit von Rechenressourcen angewiesen, um jede beliebige Arbeitslast auszuführen.

Obwohl es möglich ist, Spark als eigenständiges verteiltes System einzusetzen, um ein punktuelles Problem zu lösen, müssen Unternehmen, die sich in ihrem Datenreifegrad weiterentwickeln, oft eine komplette Datenarchitektur einsetzen, wie wir in Kapitel 3 besprochen haben.

In diesem Kapitel wollen wir die Interaktion von Spark mit seiner Rechenumgebung erörtern und wie es sich seinerseits an die Merkmale und Einschränkungen der gewählten Umgebung anpassen muss.

Zunächst geben wir einen Überblick über die aktuellen Möglichkeiten für einen Clustermanager: YARN, Mesos und Kubernetes. Der Anwendungsbereich eines Clustermanagers geht über die Datenanalyse hinaus, und deshalb gibt es viele Ressourcen, um sich eingehend über jeden von ihnen zu informieren. Für unsere Zwecke werden wir zusätzliche Details über den Clustermanager von Spark als Referenz bereitstellen.

Nachdem du die Rolle des Clustermanagers und die Art und Weise, wie Spark mit ihm interagiert, verstanden hast, befassen wir uns mit den Aspekten der Fehlertoleranz in einer verteilten Umgebung und wie das Ausführungsmodell von Spark in diesem Kontext funktioniert.

Mit ...

Get Stream Processing mit Apache Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.