Kapitel 7. Schema-Behandlung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Traditionell haben Data Lakes immer nach dem Prinzip des Schemas beim Lesen gearbeitet, hatten aber immer Probleme, das Schema beim Schreiben durchzusetzen. Das bedeutet, dass es kein vordefiniertes Schema gibt, wenn Daten in die Speicherung geschrieben werden, und dass ein Schema erst bei der Verarbeitung der Daten angepasst wird. Für Analyse- und Datenplattformen ist es zwingend erforderlich, dass deine Tabellenformate das Schema beim Schreiben durchsetzen, um zu verhindern, dass Änderungen vorgenommen werden, und um eine angemessene Datenqualität und -integrität zu gewährleisten.

Auch wenn es wichtig ist, die Schemata beim Schreiben einzuhalten, müssen wir uns darüber im Klaren sein, dass sich in der heutigen schnelllebigen Geschäftswelt und in der sich entwickelnden Landschaft des Datenmanagements Datenquellen, Analysen und einfach nur Daten und ihre Gesamtstruktur ständig ändern. Diese Veränderungen müssen mit Schemata berücksichtigt werden, die flexibel genug sind, um sich im Laufe der Zeit weiterzuentwickeln und neue, veränderte Informationen zu erfassen.

Die Schema-Herausforderungen, die häufig bei traditionellen Data Lakes auftreten, lassen sich in zwei zentrale Schema-Handhabungsfunktionen unterteilen, die jede Datenplattform und jedes Tabellenformat, unabhängig von der Speicherschicht, unterstützen muss:

Get Delta Lake: Auf und davon now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.