Kapitel 6. Bayesscher Klassifikator mit Apache Spark auf Cloud Dataproc

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Nachdem ich mich daran gewöhnt habe, Abfragen in BigQuery auszuführen, wo es keine Cluster zu verwalten gab, graut es mir davor, wieder Hadoop-Cluster zu konfigurieren und zu verwalten. Aber ich habe dir eine Tour durch die Datenwissenschaft in der Cloud versprochen, und in vielen Unternehmen spielt Hadoop dabei eine wichtige Rolle.

In diesem Kapitel nehmen wir die nächste Stufe unseres Data-Science-Problems in Angriff, indem wir ein Bayes-Modell zur Vorhersage der wahrscheinlichen Ankunftsverspätung eines Fluges erstellen. Dazu nutzen wir einen integrierten Arbeitsablauf, der BigQuery und Spark SQL einbezieht.

Alle Codeschnipsel in diesem Kapitel sind im Ordner 06_dataproc im GitHub-Repository des Buches verfügbar. In der Datei README.md in diesem Verzeichnis findest du eine Anleitung, wie du die in diesem Kapitel beschriebenen Schritte durchführen kannst.

MapReduce und das Hadoop-Ökosystem

MapReduce wurde in einem Papier von Jeff Dean und Sanjay Ghemawat als eine Möglichkeit beschrieben, große Datensätze auf einem Cluster von Maschinen zu verarbeiten. Sie zeigten, dass viele reale Aufgaben in eine Abfolge von zwei Arten von Funktionen zerlegt werden können: map Funktionen, die Schlüssel-Wert-Paare verarbeiten, um Zwischenwerte zu erzeugen, und reduce Funktionen, die alle ...

Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.