Kapitel 1. Große Daten

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Zahl der Unternehmen, die Datenarchitekturen aufbauen, ist in den 2020er Jahren explodiert. Es ist unwahrscheinlich, dass sich dieses Wachstum in absehbarer Zeit verlangsamt, vor allem weil mehr Daten als je zuvor zur Verfügung stehen: aus sozialen Medien, Internet of Things (IoT)-Geräten, selbst entwickelten Anwendungen und Software von Drittanbietern, um nur einige Quellen zu nennen. Laut einer BCG-Studie aus dem Jahr 2023 "hat sich das generierte Datenvolumen von 2018 bis 2021 auf etwa 84 ZB verdoppelt, und dieses Wachstum wird sich voraussichtlich fortsetzen." Die Forscher "schätzen, dass das erzeugte Datenvolumen von 2021 bis 2024 mit einer jährlichen Wachstumsrate (CAGR) von 21% auf 149 ZB ansteigen wird". Die Unternehmen wissen, dass sie Millionen von Dollar einsparen und ihren Umsatz steigern können, wenn sie diese Daten sammeln und nutzen, um die Vergangenheit und die Gegenwart zu analysieren und Vorhersagen für die Zukunft zu treffen - aber dafür brauchen sie eine Möglichkeit, all diese Daten zu speichern.

Überall in der Geschäftswelt wird versucht, so schnell wie möglich Datenarchitekturen aufzubauen. Diese Architekturen müssen bereit sein, alle zukünftigen Daten zu verarbeiten - unabhängig von ihrer Größe, Geschwindigkeit oder Art - und ihre Genauigkeit zu erhalten. Und diejenigen von uns, die mit Datenarchitekturen arbeiten, müssen genau wissen, wie sie funktionieren und welche Möglichkeiten es gibt. Genau hier setzt dieses Buch an. Ich habe aus erster Hand erfahren, was passiert, wenn man die Konzepte der Datenarchitektur nicht richtig versteht. Ein Unternehmen, von dem ich weiß, dass es eine Datenarchitektur für 100 Millionen Dollar in zwei Jahren aufgebaut hat, musste feststellen, dass die Architektur die falsche Technologie verwendete, zu schwierig zu bedienen und nicht flexibel genug war, um bestimmte Datentypen zu verarbeiten. Sie musste verschrottet und von Grund auf neu aufgebaut werden. Lass das nicht mit dir passieren!

Es geht darum, die richtigen Informationen zur richtigen Zeit und im richtigen Format an die richtigen Leute zu bringen. Dazu brauchst du eine Datenarchitektur, mit der du die Daten aufnehmen, speichern, umwandeln und modellieren kannst (Big-Data-Verarbeitung), damit sie genau und einfach genutzt werden können. Du brauchst eine Architektur, die es jedem Endnutzer ermöglicht, die Daten zu analysieren und Berichte und Dashboards zu erstellen, auch wenn er nur über geringe technische Kenntnisse verfügt, anstatt sich darauf zu verlassen, dass die IT-Mitarbeiter mit tiefgreifenden technischen Kenntnissen dies für sie erledigen.

Kapitel 1 beginnt mit einer Einführung in Big Data und einigen seiner grundlegenden Ideen. Anschließend erörtere ich, wie Unternehmen ihre Daten nutzen, wobei der Schwerpunkt auf Business Intelligence liegt und wie diese Nutzung mit der Reifung der Datenarchitektur eines Unternehmens zunimmt.

Was ist Big Data, und wie kann es dir helfen?

Auch wenn in Big Data der Begriff " groß" verwendet wird, geht es nicht nur um die Größe der Daten. Es geht auch um alle Daten, ob groß oder klein, innerhalb deines Unternehmens und um alle Daten außerhalb deines Unternehmens, die für dich nützlich sein könnten. Die Daten können in jedem Format vorliegen und mit beliebiger Regelmäßigkeit gesammelt werden. Der beste Weg, Big Data zu definieren, ist also, sie als alle Daten zu betrachten, unabhängig von ihrer Größe (Volumen), Geschwindigkeit (Velocity) oder Art (Vielfalt). Zusätzlich zu diesen Kriterien gibt es drei weitere Faktoren, mit denen du Daten beschreiben kannst: Wahrhaftigkeit, Variabilität und Wert. Zusammen sind sie allgemein als die "sechs Vs" von Big Data bekannt, wie in Abbildung 1-1 dargestellt.

Schauen wir uns jede einzelne davon genauer an:

Band: DasVolumen ist die schiere Menge der erzeugten und gespeicherten Daten. Das kann von Terabyte bis Petabyte reichen und aus einer Vielzahl von Quellen stammen, darunter soziale Medien, E-Commerce-Transaktionen, wissenschaftliche Experimente, Sensordaten von IoT-Geräten und vieles mehr. Die Daten eines Auftragseingabesystems können zum Beispiel ein paar Terabyte pro Tag ausmachen, während IoT-Geräte Millionen von Ereignissen pro Minute streamen und Hunderte von Terabyte an Daten pro Tag erzeugen können.
Sorte: Vielfalt bezieht sich auf die große Bandbreite an Datenquellen und -formaten. Diese können weiter unterteilt werden in strukturierte Daten (aus relationalen Datenbanken), halbstrukturierte Daten (wie Logs und CSV-, XML- und JSON-Formate), unstrukturierte Daten (wie E-Mails, Dokumente und PDFs) und binäre Daten (Bilder, Audio, Video). Daten aus einem Auftragseingabesystem wären zum Beispiel strukturierte Daten, weil sie aus einer relationalen Datenbank stammen, während Daten von einem IoT-Gerät wahrscheinlich im JSON-Format vorliegen.
Geschwindigkeit: Die Geschwindigkeit bezieht sich auf die Geschwindigkeit, mit der Daten erzeugt und verarbeitet werden. Das Sammeln von Daten in unregelmäßigen Abständen wird oft als Stapelverarbeitung bezeichnet; zum Beispiel werden jede Nacht die Bestellungen des Tages gesammelt und verarbeitet. Daten können auch sehr häufig oder sogar in Echtzeit erfasst werden, vor allem wenn sie mit hoher Geschwindigkeit erzeugt werden, wie z. B. Daten aus sozialen Medien, IoT-Geräten und mobilen Anwendungen.
Wahrhaftigkeit: Bei derWahrhaftigkeit geht es um die Genauigkeit und Zuverlässigkeit von Daten. Big Data stammen aus einer Vielzahl von Quellen. Unzuverlässige oder unvollständige Quellen können die Qualität der Daten beeinträchtigen. Wenn die Daten zum Beispiel von einem IoT-Gerät stammen, z. B. von einer Sicherheitskamera, die auf die Einfahrt deines Hauses gerichtet ist, und die dir eine Textnachricht schickt, wenn sie eine Person erkennt, kann es sein, dass das Gerät aufgrund von Umwelteinflüssen, wie z. B. dem Wetter, fälschlicherweise eine Person erkennt und die Daten verfälscht. Daher müssen die Daten nach dem Empfang validiert werden.
Variabilität: Variabilität bezieht sich auf die Konsistenz (oder Inkonsistenz) von Daten in Bezug auf ihr Format, ihre Qualität und ihre Bedeutung. Die Verarbeitung und Analyse von strukturierten, halbstrukturierten und unstrukturierten Datenformaten erfordert unterschiedliche Werkzeuge und Techniken. Die Art, Häufigkeit und Qualität der Sensordaten von IoT-Geräten kann zum Beispiel sehr unterschiedlich sein. Temperatur- und Luftfeuchtigkeitssensoren können in regelmäßigen Abständen Datenpunkte erzeugen, während Bewegungssensoren nur dann Daten erzeugen, wenn sie eine Bewegung erkennen.
Wert: Der Wert, das wichtigste V, bezieht sich auf die Nützlichkeit und Relevanz der Daten. Unternehmen nutzen Big Data, um Erkenntnisse zu gewinnen und Entscheidungen zu treffen, die zu einem geschäftlichen Nutzen führen können, z. B. zu mehr Effizienz, Kosteneinsparungen oder neuen Einnahmequellen. Durch die Analyse von Kundendaten können Unternehmen zum Beispiel das Verhalten, die Vorlieben und die Bedürfnisse ihrer Kunden besser verstehen. Sie können diese Informationen nutzen, um gezieltere Marketingkampagnen zu entwickeln, das Kundenerlebnis zu verbessern und den Umsatz zu steigern.

Das Sammeln von Big Data ermöglicht es Unternehmen, Erkenntnisse zu gewinnen, die ihnen helfen, bessere Geschäftsentscheidungen zu treffen. Dieprädiktive Analyse ist eine Art der Datenanalyse, bei der statistische Algorithmen und maschinelles Lernen eingesetzt werden, um historische Daten zu analysieren und Vorhersagen über zukünftige Ereignisse und Trends zu treffen. Dies ermöglicht es Unternehmen, proaktiv und nicht nur reaktiv zu handeln.

Viele Unternehmen bezeichnen Daten als "das neue Öl", weil sie in der heutigen digitalen Wirtschaft zu einer unglaublich wertvollen Ressource geworden sind, ähnlich wie es das Öl in der industriellen Wirtschaft war. Daten sind in vielerlei Hinsicht wie Öl:

Es ist ein Rohmaterial, das extrahiert, verfeinert und verarbeitet werden muss, um nützlich zu sein. Im Fall von Daten bedeutet das, sie zu sammeln, zu speichern und zu analysieren, um Erkenntnisse zu gewinnen, die für Geschäftsentscheidungen wichtig sind.
Sie sind unglaublich wertvoll. Unternehmen, die große Datenmengen sammeln und analysieren, können sie nutzen, um ihre Produkte und Dienstleistungen zu verbessern, bessere Geschäftsentscheidungen zu treffen und sich einen Wettbewerbsvorteil zu verschaffen.
Sie können auf vielfältige Weise genutzt werden. Wenn du zum Beispiel Daten verwendest, um Algorithmen für maschinelles Lernen zu trainieren, kannst du diese Algorithmen nutzen, um Aufgaben zu automatisieren, Muster zu erkennen und Vorhersagen zu treffen.
Es ist eine mächtige Ressource mit einer transformierenden Wirkung auf die Gesellschaft. Die weit verbreitete Nutzung von Öl hat das Wachstum von Industrien vorangetrieben und neue Technologien ermöglicht, während Daten zu Fortschritten in Bereichen wie künstlicher Intelligenz, maschinellem Lernen und prädiktiver Analytik geführt haben.
Sie kann eine Quelle der Macht und des Einflusses sein, dank all der oben genannten Faktoren.

Du kannst Big Data zum Beispiel nutzen, um Berichte und Dashboards zu erstellen, die dir sagen, wo die Verkäufe zurückbleiben, und "nachträglich" Maßnahmen ergreifen, um diese Verkäufe zu verbessern. Mithilfe von maschinellem Lernen kannst du auch vorhersagen, wo der Umsatz in Zukunft zurückgehen wird, und proaktive Schritte unternehmen, um diesen Rückgang zu verhindern. Dies wird als Business Intelligence (BI) bezeichnet: der Prozess des Sammelns, Analysierens und Nutzens von Daten, der Unternehmen hilft, fundiertere Entscheidungen zu treffen.

Wie Abbildung 1-2 zeigt, kann ich Daten aus neuen Quellen wie IoT-Geräten, Web-Logs und sozialen Medien sowie aus älteren Quellen wie Branchen-, ERP- und CRM-Anwendungen (Enterprise Resource Planning) sammeln. Diese Daten können in verschiedenen Formaten vorliegen, z. B. als CSV-Dateien, JSON-Dateien und Parquet-Dateien. Sie können stapelweise, z. B. einmal pro Stunde, oder mehrmals pro Sekunde gestreamt werden (dies wird als Echtzeit-Streaming bezeichnet).

Für Unternehmen ist es wichtig zu verstehen, wo sie im Vergleich zu anderen Unternehmen auf ihrem Weg zur Datennutzung stehen. Dies wird als Datenreife bezeichnet, und der nächste Abschnitt zeigt die Stufen der Datenreife, damit du weißt, wo dein Unternehmen steht.

Daten Reifegrad

Du hast vielleicht schon gehört, dass viele in der IT-Branche den Begriff digitale Transformation verwenden, der sich darauf bezieht, wie Unternehmen Technologien in ihr gesamtes Geschäft einbinden, um die Art und Weise, wie sie Daten nutzen, grundlegend zu verändern und wie sie arbeiten und ihren Kunden einen Mehrwert bieten. Dabei geht es darum, von traditionellen, manuellen oder papierbasierten Prozessen zu digitalen Prozessen überzugehen und die Möglichkeiten der Technologie zu nutzen, um Effizienz, Produktivität und Innovation zu verbessern. Ein großer Teil dieses Wandels besteht in der Regel darin, Daten zu nutzen, um das Geschäft eines Unternehmens zu verbessern. Das kann bedeuten, dass ein 360-Kunden-Profil erstellt wird, um das Kundenerlebnis zu verbessern, oder dass maschinelles Lernen eingesetzt wird, um die Geschwindigkeit und Genauigkeit der Fertigungsstraßen zu erhöhen.

Diese digitale Transformation kann in vier Stufen unterteilt werden, die in Abbildung 1-3 dargestellt sind. Obwohl dieser Begriff in der IT-Branche weit verbreitet ist, habe ich meine eigene Vorstellung davon, wie diese Stufen aussehen. Sie beschreiben den Entwicklungs- und Reifegrad, den ein Unternehmen bei der Verwaltung, Nutzung und Wertschöpfung seiner Daten erreicht hat. Anhand dieses Modells lassen sich die Datenmanagementfähigkeiten eines Unternehmens und seine Bereitschaft für fortschrittliche Analysen, künstliche Intelligenz und andere datengesteuerte Initiativen beurteilen. Jede Stufe stellt einen Fortschritt bei der Nutzung von Daten für den Geschäftswert und die Entscheidungsfindung dar. Der Rest dieses Abschnitts beschreibt jede Stufe.

Stufe 1: Reaktiv

In der ersten Phase hat ein Unternehmen Daten, die überall verstreut sind, wahrscheinlich in einer Reihe von Excel-Tabellen und/oder Desktop-Datenbanken auf vielen verschiedenen Dateisystemen, die überall hin gemailt werden. Datenarchitekten bezeichnen dies als spreadmart (kurz für "Spreadsheet Data Mart"): eine informelle, dezentralisierte Datensammlung, die oft in einem Unternehmen zu finden ist, das Tabellenkalkulationen zum Speichern, Verwalten und Analysieren von Daten verwendet. Einzelpersonen oder Teams erstellen und pflegen Spreadmarts in der Regel unabhängig vom zentralen Datenmanagementsystem oder dem offiziellen Data Warehouse des Unternehmens. Spreadmarts leiden unter Dateninkonsistenz, mangelnder Kontrolle, begrenzter Skalierbarkeit und Ineffizienz (da sie oft zu viel Doppelarbeit führen).

Stufe 2: Informativ

Unternehmen erreichen die zweite Reifegradstufe, wenn sie beginnen, ihre Daten zu zentralisieren, was die Analyse und Berichterstattung wesentlich erleichtert. In den Stufen 1 und 2 geht es darum, Trends und Muster aus der Vergangenheit zu erkennen, weshalb sie in Abbildung 1-3 auch als "Rückspiegel" bezeichnet werden. In diesen Stufen reagierst du auf das, was bereits passiert ist.

Auf Stufe 2 ist die Lösung, mit der die Daten gesammelt werden, in der Regel nicht sehr skalierbar. In der Regel sind der Umfang und die Art der Daten, die sie verarbeiten kann, begrenzt, und sie kann Daten nur unregelmäßig (z. B. jede Nacht) einlesen. Die meisten Unternehmen befinden sich auf Stufe 2, vor allem, wenn ihre Infrastruktur noch vor Ort ist.¹

Stufe 3: Prädiktiv

In Stufe 3 sind die Unternehmen in die Cloud umgezogen und haben ein System aufgebaut, das größere Datenmengen, verschiedene Datentypen und Daten, die häufiger (stündlich oder per Streaming) eingespeist werden, verarbeiten kann. Außerdem haben sie ihre Entscheidungsfindung verbessert, indem sie maschinelles Lernen (Advanced Analytics) einbeziehen, um Entscheidungen in Echtzeit zu treffen. Wenn sich ein/e Nutzer/in beispielsweise in einem Online-Buchladen befindet, kann das System ihm/ihr auf der Kassenseite auf der Grundlage seiner/ihrer früheren Einkäufe weitere Bücher empfehlen.

Stufe 4: Transformativ

Auf Stufe 4 schließlich hat das Unternehmen eine Lösung entwickelt, die alle Daten verarbeiten kann, unabhängig von ihrer Größe, Geschwindigkeit oder Art. Es ist einfach, neue Daten mit einer verkürzten Vorlaufzeit einzubinden, weil die Architektur damit umgehen kann und die Infrastruktur die Kapazität hat, sie zu unterstützen. Mit dieser Lösung können auch technisch nicht versierte Endnutzer/innen mit den Tools ihrer Wahl Berichte und Dashboards erstellen.

Die Stufen 3 und 4 stehen im Mittelpunkt dieses Buches. Wenn die Endnutzer/innen ihre eigenen Berichte erstellen, wird diese Tätigkeit als Self-Service Business Intelligence bezeichnet, die Gegenstand des nächsten Abschnitts ist.

Self-Service Business Intelligence

Wenn ein Endnutzer in einem Unternehmen einen Bericht oder ein Dashboard benötigte, musste er viele Jahre lang alle seine Anforderungen (die benötigten Quelldaten und eine Beschreibung, wie der Bericht oder das Dashboard aussehen sollte) zusammenstellen, ein IT-Anforderungsformular ausfüllen und warten. Die IT-Abteilung erstellte dann den Bericht, indem sie die Daten extrahierte, sie in das Data Warehouse lud, ein Datenmodell erstellte und schließlich den Bericht oder das Dashboard erstellte. Der Endnutzer prüfte den Bericht und gab ihn entweder frei oder forderte Änderungen an. Dies führte oft zu einer langen Warteschlange von IT-Anfragen, so dass die IT-Abteilung zu einem großen Engpass wurde. Es dauerte Tage, Wochen oder sogar Monate, bis die Endnutzer die Daten nutzen konnten. Dieser Prozess wird heute als "traditionelle BI" bezeichnet, denn in den letzten Jahren hat sich etwas Besseres entwickelt: Self-Service-BI.

Das Ziel jeder Datenarchitekturlösung, die du entwickelst, sollte es sein, dass jeder Endnutzer, unabhängig von seinen technischen Fähigkeiten, die Daten schnell und einfach abfragen und Berichte und Dashboards erstellen kann. Sie sollten nicht die IT-Abteilung einschalten müssen, um diese Aufgaben zu erledigen - sie sollten das alles selbst tun können.

Dieses Ziel erfordert mehr Vorarbeit: Die IT-Abteilung muss sich mit allen Endnutzern in Verbindung setzen, um herauszufinden, welche Daten sie benötigen, und dann die Datenarchitektur unter Berücksichtigung ihrer Bedürfnisse aufbauen. Aber die Zeitersparnis bei der Erstellung der Berichte ist es allemal wert. Bei diesem Ansatz entfallen die Warteschlange und das Hin und Her mit der IT-Abteilung, deren Mitarbeiter/innen in der Regel wenig Ahnung von den Daten haben. Stattdessen greift der Endnutzer, der die Daten am besten kennt, direkt auf die Daten zu, bereitet sie auf, baut das Datenmodell auf, erstellt die Berichte und prüft, ob die Berichte korrekt sind. Dieser Arbeitsablauf ist viel produktiver.

Die Schaffung einer einfach zu bedienenden Datenlösung führt zu Self-Service-BI. Die Erstellung eines Berichts sollte so einfach sein wie das Ziehen von Feldern in einem Arbeitsbereich. Die Endnutzer sollten nicht wissen, wie man Daten aus verschiedenen Tabellen zusammenführt, und sich keine Sorgen machen müssen, dass ein Bericht zu langsam läuft. Wenn du eine Datenlösung entwickelst, solltest du dich immer fragen: Wie einfach wird es für die Mitarbeiter sein, ihre eigenen Berichte zu erstellen?

Zusammenfassung

In diesem Kapitel hast du gelernt, was Big Data ist und wie es dir und deinem Unternehmen helfen kann, bessere Geschäftsentscheidungen zu treffen, insbesondere in Kombination mit maschinellem Lernen. Du hast gesehen, wie man Big Data mit Hilfe der sechs Vsbeschreibt, und du hast gelernt, was Datenreife bedeutet und wie man ihre Stadien erkennt. Schließlich hast du den Unterschied zwischen traditioneller und Self-Service-BI kennengelernt, bei der das Ziel ist, dass jeder die Daten nutzen kann, um schnell und einfach Berichte zu erstellen und Erkenntnisse zu gewinnen.

Ich möchte dir nun einen Überblick darüber geben, was dich in den folgenden Kapiteln erwartet. In Kapitel 2 gehe ich darauf ein, was eine Datenarchitektur ist und gebe einen Überblick darüber, wie sich die Arten von Datenarchitekturen im Laufe der Jahre verändert haben. In Kapitel 3 zeige ich dir, wie du eine Architektur-Design-Sitzung durchführst, um die beste Datenarchitektur zu finden.

Teil II, "Allgemeine Datenarchitekturkonzepte", geht näher auf die verschiedenen Architekturen ein. In Kapitel 4 gehe ich darauf ein, was ein Data Warehouse ist und was nicht, und warum du ein solches nutzen solltest. Ich erörtere den "Top-Down-Ansatz", stelle die Frage, ob das relationale Data Warehouse tot ist, und beschreibe, wie man ein Data Warehouse befüllen kann. Kapitel 5 beschreibt, was ein Data Lake ist und warum du einen solchen nutzen solltest. Außerdem wird der "Bottom-up"-Ansatz erörtert, und dann geht es um das Design von Data Lakes und die Frage, wann man mehrere Data Lakes einsetzen sollte.

Kapitel 6 befasst sich mit allgemeinen Datenarchitekturkonzepten im Zusammenhang mit Datenspeichern, darunter Data Marts, operative Datenspeicher, Stammdatenmanagement und Datenvirtualisierung. Kapitel 7 befasst sich mit allgemeinen Datenarchitekturkonzepten im Zusammenhang mit dem Design, einschließlich OLTP versus OLAP, operative versus analytische Daten, SMP versus MPP, Lambda-Architektur, Kappa-Architektur und polyglotte Persistenz. In Kapitel 8 dreht sich alles um Datenmodellierung, einschließlich relationaler und dimensionaler Modellierung, der Kimball- versus Inmon-Debatte, dem gemeinsamen Datenmodell und Datentresoren. Und in Kapitel 9 geht es um die Dateneingabe mit Abschnitten über ETL versus ELT, Reverse ELT, Batch versus Echtzeitverarbeitung und Data Governance.

Teil III konzentriert sich auf spezifische Datenarchitekturen. Kapitel 10 beschreibt das moderne Data Warehouse und die fünf Phasen des Aufbaus eines solchen. Kapitel 11 behandelt die Data-Fabric-Architektur und ihre Anwendungsfälle. Kapitel 12 befasst sich mit der Data Lakehouse-Architektur und den Kompromissen, die der Verzicht auf ein relationales Data Warehouse mit sich bringt.

In den Kapiteln 13 und 14 geht es um Datengeflecht-Architekturen - da gibt es eine Menge zu besprechen! Kapitel 13 befasst sich mit dem dezentralen Ansatz des Datengeflechts und den vier Prinzipien eines Datengeflechts und beschreibt, was Datendomänen und Datenprodukte sind. Kapitel 14 befasst sich mit den Bedenken und Herausforderungen beim Aufbau eines Datennetzes und räumt mit einigen verbreiteten Mythen über Datennetze auf. Es hilft dir zu prüfen, ob du bereit bist, ein Datennetz einzuführen. Abschließend wird erläutert, wie die Zukunft des Datennetzes aussehen könnte.

Kapitel 15 befasst sich mit der Frage, warum Projekte erfolgreich sind und warum sie fehlschlagen, und es beschreibt die Teamorganisation, die du für den Aufbau einer Datenarchitektur brauchst. In Kapitel 16 schließlich geht es um Open Source, die Vorteile der Cloud, die wichtigsten Cloud-Provider, Multi-Cloud und Software-Frameworks.

Jetzt bin ich dabei, deine Datenwelt zu revolutionieren. Bist du bereit?

¹ On-Premises bedeutet, dass ein Unternehmen seine IT-Infrastruktur - wie Server, Speicherung und Netzwerkausrüstung - in seinen eigenen physischen Einrichtungen, den sogenannten Rechenzentren, hostet und verwaltet. Im Gegensatz dazu werden bei Cloud-basierten Diensten diese Ressourcen von Drittanbietern wie Azure, Amazon Web Services (AWS) oder Google Cloud Platform (GCP) in entfernten Rechenzentren gehostet und verwaltet. In Kapitel 16 werde ich die Vorteile des Wechsels von On-Prem in die Cloud erörtern, aber bis dahin solltest du wissen, dass der Wechsel von On-Prem-Servern in die Cloud für die meisten Unternehmen ein wichtiger Bestandteil ihrer digitalen Transformation ist.

Get Datenarchitekturen entschlüsseln now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Datenarchitekturen entschlüsseln by James Serra

Kapitel 1. Große Daten

Was ist Big Data, und wie kann es dir helfen?

Abbildung 1-1. Die sechs Vs von Big Data (Quelle: The Cloud Data Lake von Rukmani Gopalan [O'Reilly, 2023]).

Abbildung 1-2. Big Data-Verarbeitung (Quelle: The Cloud Data Lake von Rukmani Gopalan [O'Reilly, 2023])

Daten Reifegrad

Abbildung 1-3. Reifegrade von Unternehmensdaten

Stufe 1: Reaktiv

Stufe 2: Informativ

Stufe 3: Prädiktiv

Stufe 4: Transformativ

Self-Service Business Intelligence

Zusammenfassung

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly