Kapitel 7. Aggregationen
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Aggregieren ist der Akt des Zusammenfassens von etwas und ein Eckpfeiler der Big Data-Analytik. Bei einer Aggregation gibst du einen Schlüssel oder eine Gruppierung an und eine Aggregationsfunktion, die angibt, wie du eine oder mehrere Spalten umwandeln sollst. Diese Funktion muss bei mehreren Eingabewerten ein Ergebnis für jede Gruppe liefern. Die Aggregationsfunktionen von Spark sind ausgefeilt und ausgereift und bieten eine Vielzahl verschiedener Anwendungsfälle und Möglichkeiten. Im Allgemeinen verwendest du Aggregationen, um numerische Daten zusammenzufassen, indem du sie gruppierst. Das kann eine Summierung, ein Produkt oder eine einfache Zählung sein. Außerdem kannst du mit Spark jede Art von Wert in einem Array, einer Liste oder einer Map aggregieren, wie wir in "Aggregieren zu komplexen Typen" sehen werden .
Spark kann nicht nur mit allen Arten von Werten arbeiten, sondern auch die folgenden Gruppierungsarten erstellen:
-
Die einfachste Gruppierung ist die Zusammenfassung eines kompletten Datenrahmens, indem du eine Aggregation in einer Select-Anweisung durchführst.
-
Bei einer "Gruppierung nach" kannst du einen oder mehrere Schlüssel sowie eine oder mehrere Aggregationsfunktionen angeben, um die Wertespalten zu transformieren.
-
Ein "Fenster" gibt dir die Möglichkeit, einen oder mehrere Schlüssel sowie eine oder ...
Get Spark: Der endgültige Leitfaden now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.