Vorwort
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Das Ziel dieses Buches ist es, Datenpraktikern praktische Anleitungen zu geben, wie sie Delta Lake einrichten und seine einzigartigen Funktionen nutzen können. Dieses Buch richtet sich an ein Publikum, das einem der folgenden Profile entspricht:
-
Datenexperten mit einem Spark-Hintergrund
-
Datenexperten, die Delta Lake noch nicht kennen oder noch nicht kennengelernt haben und eine Einführung in die Technologie, die Probleme, die sie löst, die wichtigsten Funktionen und die Terminologie sowie die ersten Schritte bei der Nutzung benötigen
-
Datenexperten, die sich über die Funktionen und Vorteile moderner Lakehouse-Architekturen informieren möchten
Es ist wichtig zu beachten, dass dieses Buch und die besprochenen Funktionen sich auf das Delta Lake Open Source Framework (Delta Lake OSS) beziehen. Proprietäre Funktionen und Optimierungen, die einige Unternehmen rund um Delta Lake anbieten, werden in diesem Buch nicht behandelt.
Zunächst wird erläutert, warum Delta Lake ein wichtiges Werkzeug für den Aufbau moderner Unternehmensdatenplattformen und Data-Science- und KI-Lösungen ist, gefolgt von einer Anleitung zur Einrichtung von Delta Lake mit Spark. Jedes der folgenden Kapitel führt dich anhand von Schritt-für-Schritt-Anleitungen und Beispielen aus der Praxis durch die grundlegenden Funktionen und Abläufe von Delta Lake.
Die Codebeispiele im Buch reichen von Schnipseln, die in einer PySpark-Shell verwendet werden können, bis hin zu solchen, die für ein komplettes End-to-End-Notebook gedacht sind. In diesem Buch sind alle Codeschnipsel in Python, SQL und, wo nötig, in Shell-Befehlen verfasst.
Ein GitHub-Repository hilft den Lesern, dem Buch zu folgen. Dort werden Datensätze, Dateien und Codebeispiele bereitgestellt, auf die im gesamten Buch Bezug genommen wird. Im Folgenden findest du einige wichtige Hinweise zur Nutzung des GitHub-Repos:
- Code-Beispiele
Die Codebeispiele sind im Repo nach Kapiteln geordnet, und für die meisten Kapitel ist ein Kapitelinitialisierungsskript vorgesehen, das vor der Ausführung des entsprechenden Codes für das jeweilige Kapitel ausgeführt werden soll. Dieses Kapitelinitialisierungsskript wird vor der Ausführung des Codes benötigt, um die entsprechenden Deltatabellen und Datensätze einzurichten, damit die besprochenen Themen am besten demonstriert werden können. Diese Kapitelinitialisierungsskripte werden im Text des Buches ausdrücklich genannt, bevor der erste Beispielcode für ein bestimmtes Kapitel ausgeführt wird.
- Code-Beispieldateien
Die Datendateien, die für die Ausführung der bereitgestellten Codebeispiele benötigt werden, befinden sich im GitHub-Repository. Die Datendateien im GitHub-Repository stammen von den beliebten NYC Yellow und Green Taxi Trip Records. Diese Dateien wurden heruntergeladen und kuratiert, um sie in diesem Buch effektiv zu demonstrieren.
- Methode für den Betrieb von Delta Lake für dieses Buch
Die Methode, mit der Delta Lake für die Zwecke dieses Buches und den Code im bereitgestellten GitHub-Repository ausgeführt wird, ist die Databricks Community Edition. Die Databricks Community Edition wurde für die Entwicklung und Ausführung der Codebeispiele gewählt, weil sie kostenlos ist, die Einrichtung von Spark und Delta Lake vereinfacht und weder ein eigenes Cloud-Konto noch die Bereitstellung von Cloud-Rechen- oder Speicherressourcen erfordert. Die Delta-Tabellen, Datensätze und Code-Beispiele, die in diesem Buch und im GitHub Repo verwendet werden, wurden auf der auf Azure gehosteten Databricks Community Edition entwickelt und getestet, wobei Azure Data Lake Storage Gen2 als zugrunde liegende Speicherung und Databricks Runtime 12.2 LTS verwendet wurden. Wenn du die Codebeispiele auf Spark und Delta Lake außerhalb von Databricks ausführst (z. B. auf deinem lokalen Rechner), musst du zusätzliche Einstellungen, Konfigurationen und mögliche Editor-Syntaxoptionen berücksichtigen.
- Notizbücher
Du wirst auch den Begriff Notizbuch sehen. Ein Notizbuch bezieht sich auf ein Databricks-Notizbuch, das wichtigste Werkzeug für die Entwicklung von Code und die Präsentation von Ergebnissen im Buch.
- Code-Sprachen
-
Delta Lake unterstützt mehrere Sprachen (Scala, Java, Python und SQL) für eine Vielzahl von Funktionen. Dieses Buch konzentriert sich hauptsächlich auf Python und SQL. Die Code-Beispiele enthalten Code in der Sprache, die für das behandelte Thema am besten geeignet ist. Alternativen für ähnliche Funktionen in anderen Sprachen werden nicht immer angeboten. Bitte schaue in der Delta Lake Dokumentation nach, um ähnliche Funktionen in anderen Sprachen zu sehen.
Für die in diesem Buch verwendeten Codeschnipsel ist die Standardsprache Python. Um die Verwendung einer anderen Sprache als Python in einem Codeschnipsel anzuzeigen, werden magische Sprachbefehle angezeigt, d. h.
%<language>
(z. B.%sql
). Du kannst davon ausgehen, dass Codeschnipsel, die keinen Sprachbefehl enthalten, Python verwenden.
Wie du uns kontaktierst
Bitte richte Kommentare und Fragen zu diesem Buch an den Verlag:
- O'Reilly Media, Inc.
- 1005 Gravenstein Highway Nord
- Sebastopol, CA 95472
- 800-889-8969 (in den Vereinigten Staaten oder Kanada)
- 707-829-7019 (international oder lokal)
- 707-829-0104 (Fax)
- support@oreilly.com
- https://www.oreilly.com/about/contact.html
Wir haben eine Webseite für dieses Buch, auf der wir Errata, Beispiele und zusätzliche Informationen auflisten. Du kannst diese Seite unter https://oreil.ly/delta-lake-up-and-running-1e aufrufen .
Neuigkeiten und Informationen über unsere Bücher und Kurse findest du unter https://oreilly.com.
Du findest uns auf LinkedIn: https://linkedin.com/company/oreilly-media.
Folge uns auf Twitter: https://twitter.com/oreillymedia.
Sieh uns auf YouTube: https://youtube.com/oreillymedia.
In diesem Buch verwendete Konventionen
In diesem Buch werden die folgenden typografischen Konventionen verwendet:
- Kursiv
-
Weist auf neue Begriffe, URLs, E-Mail-Adressen, Dateinamen und Dateierweiterungen hin.
Constant width
-
Wird für Programmlistings sowie innerhalb von Absätzen verwendet, um auf Programmelemente wie Variablen- oder Funktionsnamen, Datenbanken, Datentypen, Umgebungsvariablen, Anweisungen und Schlüsselwörter hinzuweisen.
Constant width bold
-
Zeigt Befehle oder anderen Text an, der vom Benutzer wortwörtlich eingetippt werden sollte.
Constant width italic
-
Zeigt Text an, der durch vom Benutzer eingegebene Werte oder durch kontextabhängige Werte ersetzt werden soll.
Tipp
Dieses Element steht für einen Tipp oder eine Anregung.
Hinweis
Dieses Element steht für einen allgemeinen Hinweis.
Warnung
Dieses Element weist auf eine Warnung oder einen Warnhinweis hin.
Code-Beispiele verwenden
Zusätzliches Material (Code-Beispiele, Übungen usw.) steht unter https://github.com/benniehaelen/delta-lake-up-and-running zum Download bereit .
Wenn du eine technische Frage oder ein Problem mit den Codebeispielen hast, sende bitte eine E-Mail an support@oreilly.com.
Dieses Buch soll dir helfen, deine Arbeit zu erledigen. Wenn in diesem Buch Beispielcode angeboten wird, darfst du ihn in deinen Programmen und deiner Dokumentation verwenden. Du musst uns nicht um Erlaubnis fragen, es sei denn, du reproduzierst einen großen Teil des Codes. Wenn du zum Beispiel ein Programm schreibst, das mehrere Teile des Codes aus diesem Buch verwendet, brauchst du keine Erlaubnis. Der Verkauf oder die Verbreitung von Beispielen aus O'Reilly-Büchern erfordert jedoch eine Genehmigung. Die Beantwortung einer Frage mit einem Zitat aus diesem Buch und einem Beispielcode erfordert keine Genehmigung. Wenn du einen großen Teil des Beispielcodes aus diesem Buch in die Dokumentation deines Produkts aufnimmst, ist eine Genehmigung erforderlich.
Wir freuen uns über eine Namensnennung, verlangen sie aber in der Regel nicht. Eine Quellenangabe umfasst normalerweise den Titel, den Autor, den Verlag und die ISBN. Zum Beispiel:"Delta Lake: Up and Running " von Bennie Haelen und Dan Davis (O'Reilly). Copyright 2024 O'Reilly Media, Inc. 978-1-098-13972-8."
Wenn du der Meinung bist, dass die Verwendung von Code-Beispielen nicht unter die Fair-Use-Regelung oder die oben genannte Erlaubnis fällt, kannst du uns gerne unter permissions@oreilly.com kontaktieren .
O'Reilly Online Learning
Hinweis
Seit mehr als 40 Jahren bietet O'Reilly Media Schulungen, Wissen und Einblicke in Technologie und Wirtschaft, um Unternehmen zum Erfolg zu verhelfen.
Unser einzigartiges Netzwerk von Experten und Innovatoren teilt sein Wissen und seine Erfahrung durch Bücher, Artikel und unsere Online-Lernplattform. Die Online-Lernplattform von O'Reilly bietet dir On-Demand-Zugang zu Live-Trainingskursen, ausführlichen Lernpfaden, interaktiven Programmierumgebungen und einer umfangreichen Text- und Videosammlung von O'Reilly und über 200 anderen Verlagen. Weitere Informationen erhältst du unter https://oreilly.com.
Danksagung
Wir möchten uns bei unseren technischen Gutachtern bedanken: Adam Breindel, Andrei Ionescu und Jobenish Purushothaman. Ihre Liebe zum Detail, ihr Feedback und ihre durchdachten Vorschläge haben entscheidend dazu beigetragen, den Inhalt dieses Buches zu gestalten und seine Genauigkeit zu gewährleisten. Ihr Beitrag hat zweifellos dazu beigetragen, dass dieses Buch zu einem besseren Qualitätsprodukt geworden ist, das den Leserinnen und Lesern eine wertvolle Ressource sein wird.
Neben den technischen Gutachtern haben wir während des gesamten Prozesses der Erstellung des Buches auch wertvolles Feedback von anderen Mitwirkenden erhalten. Wir möchten den folgenden Personen unseren Dank aussprechen: Alex Ott, Anthony Krinsky, Artem Sheiko, Bilal Obeidat, Carlos Morillo, Eli Swanson, Guillermo G. Schiava D'Albano, Jitesh Soni, Joe Widen, Kyle Hale, Marco Scagliola, Nick Karpov, Nouran Younis, Ori Zohar, Sirui Sun, Susan Pierce, und Youssef Mrini. Ohne ihren Beitrag wäre dieses Buch nicht die wertvolle Ressource, die es ist.
Schließlich möchten wir der Open-Source-Gemeinschaft danken. Ohne die Beiträge und gemeinsamen Anstrengungen der Community hätte Delta Lake nicht die bemerkenswerten Fähigkeiten, die es heute hat. Das Engagement der Community für Innovation trägt zur Entwicklung und Wirkung von Delta Lake bei, und wir können ihr nicht genug danken und unsere Anerkennung aussprechen.
Bennie Haelen
Ich möchte mich bei meiner wunderbaren Frau Jenny bedanken. Du warst immer da, um mich während des Schreibens dieses Buches zu ermutigen und zu motivieren; du bist die große Inspiration in meinem Leben. Meinem Co-Autor Dan danke ich dafür, dass er in schwierigen Phasen meines Lebens für mich da war. Dan, du hast eine große Karriere vor dir. Danke an meine Freunde und Kollegen, an die ich mich immer mit schwierigen Fragen wenden kann, egal zu welcher Tageszeit.
Dan Davis
Ich möchte mich bei meiner Familie bedanken. Eure ständige Ermutigung und Unterstützung waren die Grundlage für meine Reise dorthin, wo ich heute stehe, und für das Schreiben dieses Buches. Danke, dass ihr immer eine ständige Quelle der Motivation seid. Ich möchte auch all meinen Freunden und Kollegen danken, von denen ich gelernt habe und die mich auf meinem Weg immer wieder unterstützt haben. Ich kann meinem Co-Autor Bennie nicht genug danken. Danke, dass du der Mentor bist, der du bist, der mich unterstützt und mir großartige Möglichkeiten bietet. Und nicht zuletzt möchte ich mich bei meinem geliebten Begleiter bedanken, der immer an meiner Seite ist, ob es ihm gefällt oder nicht: mein Hund River.
Get Delta Lake: Auf und davon now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.