Kapitel 5. Offene Daten Lakehouse Analytics

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Bisher hast du gelernt, wie du Presto mit Hilfe von Standardkonnektoren wie MySQL und Pinot mit einem Data Lake verbinden kannst. Außerdem hast du gelernt, wie du einen benutzerdefinierten Konnektor mit den Java-Klassen und -Methoden von Presto schreibst. Schließlich hast du einen Client mit Presto verbunden, um generische oder benutzerdefinierte Abfragen auszuführen. Jetzt ist es an der Zeit, Presto in einem fortgeschrittenen, realistischeren Szenario einzusetzen, das die wichtigsten Herausforderungen des Big-Data-Managements angeht: Tabellensuche, gleichzeitiger Zugriff auf Daten und Zugriffskontrolle.

In diesem Kapitel geben wir einen Überblick über das Data Lakehouse und implementieren ein praktisches Szenario. Das Kapitel ist in zwei Teile gegliedert. Im ersten Teil stellen wir die Architektur eines Data Lakehouse vor und konzentrieren uns dabei auf seine Hauptkomponenten. Im zweiten Teil des Kapitels wirst du ein praktisches Data Lakehouse-Szenario mit Presto und völlig offenen Komponenten umsetzen.

Das Entstehen des Seehauses

Die erste Generation von Data Lakes, die vor allem auf dem Hadoop Distributed File System (HDFS) basierte, zeigte, wie vielversprechend Analysen in großem Maßstab sind. In der Folge bildeten viele Unternehmen Datenplattform-Architekturen, die aus Data Lakes und Data Warehouses ...

Get Presto lernen und bedienen now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.