Kapitel 7. Logistische Regression mit Spark ML
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 6 haben wir ein Modell erstellt, das auf zwei Variablen - Entfernung und Abflugverspätung - basiert, um die Wahrscheinlichkeit vorherzusagen, dass ein Flug mehr als 15 Minuten Verspätung hat. Wir haben festgestellt, dass wir eine feinere Entscheidung treffen können, wenn wir eine zweite Variable (Entfernung) statt nur einer Variablen (Abflugverspätung) verwenden.
Warum nicht alle Variablen des Datensatzes verwenden? Oder zumindest viel mehr von ihnen? Insbesondere würde ich gerne die Variable TAXI_OUT
verwenden - wenn sie zu hoch ist, bleibt der Flug auf der Landebahn stecken und wartet auf die Startfreigabe des Flughafentowers, so dass sich der Flug wahrscheinlich verspätet. Der Naive-Bayes-Ansatz in Kapitel 6 war in Bezug auf die Einbeziehung zusätzlicher Variablen recht begrenzt. Wenn wir weitere Variablen hinzufügen, müssen wir den Datensatz in immer kleinere Bins unterteilen. Wir würden dann feststellen, dass viele unserer Bins nur sehr wenige Stichproben enthalten würden, was zu Entscheidungsflächen führen würde, die sich nicht gut verhalten würden. Erinnere dich daran, dass wir, nachdem wir die Daten nach Entfernung unterteilt hatten, festgestellt haben, dass sich die Entscheidungsgrenze für Abflugverspätungen recht gut verhält - Abflugverspätungen über einem bestimmten Schwellenwert ...
Get Data Science auf der Google Cloud Platform, 2. now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.