Kapitel 10. Apache Iceberg in der Produktion
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Dateningenieure sind dafür verantwortlich, Daten so zu sammeln, zu speichern und zu verarbeiten, dass sie effizient, zuverlässig und sicher sind. Wenn sie Daten in die Produktion geben, müssen sie eine Reihe bewährter Methoden befolgen, um sicherzustellen, dass die Daten korrekt, konsistent und zugänglich sind. In diesem Kapitel werden wir viele der Tools besprechen, die bei der Überwachung und Pflege von Apache Iceberg-Tabellen in der Produktion eingesetzt werden können. Wir beginnen mit einer Diskussion über die Apache Iceberg-Metadaten, die du nutzen kannst, um deine Iceberg-Tabellen besser zu verstehen. Dann werden wir uns mit Möglichkeiten zur Sicherung der Datenqualität befassen, z. B. mit der Verzweigung zur Isolierung der Aufnahme auf Tabellen- oder Katalogebene, mit der Katalogversionierung zur Durchführung multitable Transaktionen und mit dem Zurücksetzen des Status einer Tabelle oder eines Katalogs, wenn etwas schief läuft.
Alle in diesem Kapitel besprochenen Praktiken können reaktiv oder proaktiv angewendet werden. Ein reaktiver Ansatz bedeutet, auf bereits bestehende Situationen zu reagieren, wie z.B. das Umschreiben einer Partition, die bereits zu groß geworden ist, oder das Zurücksetzen einer Tabelle, in die bereits schlechte Daten eingeflossen sind.
Proaktive Techniken versuchen, solche ...
Get Apache Iceberg: Der endgültige Leitfaden now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.