Kapitel 8. Ranking-Algorithmen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden die folgenden zwei Ranking-Algorithmen vorgestellt und die dazugehörigen Implementierungen in PySpark präsentiert:

Produkt bewerten

Dieser Algorithmus findet die Ränge von Elementen (z. B. Genen) unter allen Elementen. Ursprünglich wurde er für die Erkennung von unterschiedlich exprimierten Genen in wiederholten Microarray-Experimenten entwickelt, hat sich aber inzwischen weit verbreitet und wird nun auch im Bereich des maschinellen Lernens eingesetzt. Spark bietet keine API für das Rank-Produkt, daher werde ich eine eigene Lösung vorstellen.

PageRank

PageRank ist ein iterativer Algorithmus zur Messung der Wichtigkeit von Knoten in einem bestimmten Graphen. Dieser Algorithmus wird häufig von Suchmaschinen (z. B. Google) verwendet, um die Wichtigkeit jeder Webseite (eines Dokuments) im Vergleich zu allen Webseiten (einer Gruppe von Dokumenten) zu ermitteln. Kurz gesagt, berechnet der PageRank-Algorithmus aus einer Reihe von Webseiten eine Qualitätseinstufung für jede Seite. Die Spark-API bietet mehrere Lösungen für den PageRank-Algorithmus. Ich werde eine davon vorstellen, die die GraphFrames-API nutzt, sowie zwei eigene Lösungen.

Rang Produkt

Das Rangprodukt ist ein Algorithmus, ...

Get Datenalgorithmen mit Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.