Kapitel 2. Eine moderne Dateninfrastruktur

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bevor du dich für Produkte und Design zum Aufbau von Pipelines entscheidest, solltest du verstehen, was einen modernen Data Stack ausmacht. Wie bei den meisten Dingen im Technologiebereich gibt es auch bei der Gestaltung deines Analytics-Ökosystems oder der Auswahl von Produkten und Anbietern nicht den einzig richtigen Weg. Dennoch gibt es einige wichtige Anforderungen und Konzepte, die zum Industriestandard geworden sind und die Grundlage für bewährte Methoden bei der Implementierung von Pipelines bilden.

Werfen wir einen Blick auf die Schlüsselkomponenten einer solchen Infrastruktur, wie in Abbildung 2-1 dargestellt. In den folgenden Kapiteln wird untersucht, wie die einzelnen Komponenten in die Gestaltung und Umsetzung von Datenpipelines einfließen.

Vielfalt der Datenquellen

Die meisten Unternehmen verfügen über Dutzende, wenn nicht sogar Hunderte von Datenquellen, aus denen sie ihre Analysen beziehen. Die Datenquellen unterscheiden sich in vielen Bereichen, die in diesem Abschnitt behandelt werden.

dppr 0201
Abbildung 2-1. Die wichtigsten Komponenten einer modernen Dateninfrastruktur.

Quelle Systembesitz

Typischerweise nimmt ein Analyseteam Daten aus Quellsystemen auf, die von der Organisation selbst entwickelt ...

Get Data Pipelines Pocket Reference now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.