Kapitel 2. Die Architektur des Apache Iceberg

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir die Architektur und die Spezifikationen besprechen, die es Apache Iceberg ermöglichen, die Probleme des Hive-Tabellenformats zu lösen, indem wir einen Blick unter die Haube einer Iceberg-Tabelle werfen. Wir gehen auf die verschiedenen Strukturen einer Iceberg-Tabelle ein und erklären, was jede Struktur bietet und ermöglicht, damit du verstehst, was unter der Haube passiert, und dein Apache Iceberg-basiertes Lakehouse optimal gestalten kannst.

Wie in Kapitel 1 erwähnt, gibt es drei verschiedene Schichten einer Apache Iceberg-Tabelle: die Katalogebene, die Metadatenebene und die Datenebene. Abbildung 2-1 zeigt die verschiedenen Komponenten, aus denen die einzelnen Schichten bestehen.

In den folgenden Abschnitten gehen wir jede dieser Komponenten im Detail durch. Da es einfacher ist, neue Konzepte zu verstehen, wenn du mit einem vertrauten Konzept beginnst, arbeiten wir von unten nach oben, beginnend mit der Datenschicht.

Abbildung 2-1. Die Architektur einer Apache Iceberg-Tabelle

Die Datenschicht

Die Datenschicht einer Apache Iceberg-Tabelle speichert die eigentlichen Daten der Tabelle und besteht hauptsächlich aus den Datendateien selbst, obwohl auch Löschdateien enthalten ...

Get Apache Iceberg: Der endgültige Leitfaden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.