Kapitel 7. Optimieren und Abstimmen von Spark-Anwendungen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Im vorigen Kapitel haben wir erläutert, wie man mit Datasets in Java und Scala arbeitet. Wir haben untersucht, wie Spark den Speicher verwaltet, um Dataset-Konstrukte als Teil seiner vereinheitlichten High-Level-API unterzubringen, und wir haben uns mit den Kosten beschäftigt, die mit der Verwendung von Datasets verbunden sind, und wie diese Kosten gemindert werden können.

Neben der Kostenreduzierung wollen wir auch überlegen, wie wir Spark optimieren und abstimmen können. In diesem Kapitel werden wir eine Reihe von Spark-Konfigurationen besprechen, die Optimierungen ermöglichen, uns die Join-Strategien von Spark ansehen und die Spark-Benutzeroberfläche nach Hinweisen auf Fehlverhalten untersuchen.

Optimieren und Abstimmen von Spark für mehr Effizienz

Obwohl Spark viele Konfigurationen zum Abstimmen hat, wird in diesem Buch nur eine Handvoll der wichtigsten und am häufigsten abgestimmten Konfigurationen behandelt. Eine umfassende Liste, die nach funktionalen Themen gruppiert ist, findest du in der Dokumentation.

Anzeigen und Einstellen von Apache Spark-Konfigurationen

Es gibt drei Möglichkeiten, wie du Spark-Eigenschaften abrufen und einstellen kannst. Der erste Weg führt über eine Reihe von Konfigurationsdateien. Im Verzeichnis $SPARK_HOME (wo du Spark installiert hast) gibt es eine Reihe ...

Get Spark lernen, 2. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.