Kapitel 7. Data Lake Management Service

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Jetzt, wo wir die erforderlichen Daten für die Entwicklung von Erkenntnissen entdeckt und gesammelt haben, treten wir in die nächste Phase der Datenaufbereitung ein. Die Daten werden im Data Lake aggregiert. Data Lakes sind zu zentralen Datenspeichern geworden, in denen Petabytes an strukturierten, halbstrukturierten und unstrukturierten Daten zusammengeführt werden. Nehmen wir das Beispiel der Entwicklung eines Modells zur Umsatzprognose. Datenwissenschaftler/innen probieren oft Hunderte verschiedener Modelle über einen Zeitraum von Wochen und Monaten aus. Wenn sie ihre Experimente wiederholen, brauchen sie eine Möglichkeit, die Modelle zu reproduzieren. In der Regel wurden die Quelldaten durch vorgelagerte Pipelines verändert, so dass es nicht ganz einfach ist, ihre Experimente zu reproduzieren. In diesem Beispiel muss der Data Lake die Versionierung und das Rollback von Daten unterstützen. Auch andere Aufgaben des Datenlebenszyklusmanagements wie die Sicherstellung der Konsistenz zwischen Replikaten, die Schemaentwicklung der zugrunde liegenden Daten, die Unterstützung partieller Aktualisierungen, die ACID-Konsistenz für Aktualisierungen bestehender Daten usw. sind zu beachten.

Während Data Lakes als zentrale Data Warehouses beliebt geworden sind, fehlt ihnen die Unterstützung für die traditionellen Aufgaben ...

Get Die Self-Service-Daten-Roadmap now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.