Kapitel 6. Apache Spark
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Apache Spark zeichnet sich als äußerst vielseitige verteilte Rechenmaschine in Verbindung mit Apache Iceberg durch die Unterstützung einer Vielzahl von Funktionen aus. Durch den Einsatz von Spark und Iceberg kannst du die Vorteile der effizienten Datenorganisation und -verwaltung von Iceberg für deine Berechnungen nutzen. In diesem Kapitel werden wir die notwendigen Schritte für den Einstieg in Apache Iceberg und Spark erkunden und uns mit einigen wichtigen Funktionen beschäftigen. Am Ende dieses Kapitels wirst du in der Lage sein, Apache Iceberg zu konfigurieren, verschiedene Data Definition Language (DDL)-Operationen (CREATE
, ALTER
), Abfragen (SELECT
) und Data Manipulation Language (DML)-Operationen (INSERT
, UPDATE
, DELETE
, MERGE
) durchzuführen und Iceberg-Tabellen mit verschiedenen Processing Engines zu verwalten.
Konfiguration
Wir beginnen mit der Konfiguration von Apache Iceberg-Tabellen und -Katalogen mit Spark als Compute Engine. Du sollst dich mit den grundlegenden Konfigurationsparametern vertraut machen, die für eine nahtlose Zusammenarbeit mit Iceberg und Spark erforderlich sind.
Apache Iceberg und Spark konfigurieren
Um mit Apache Iceberg-Tabellen mit Apache Spark arbeiten zu können, müssen sie für die Zusammenarbeit konfiguriert werden. Es gibt mehrere Möglichkeiten, diese Konfigurationen festzulegen. Zuerst ...
Get Apache Iceberg: Der endgültige Leitfaden now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.