Capítulo 7. Regresión logística con Spark ML

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el Capítulo 6, creamos un modelo basado en dos variables -distancia y retraso en la salida- para predecir la probabilidad de que un vuelo llegue con más de 15 minutos de retraso. Descubrimos que podíamos tomar una decisión más precisa si utilizábamos una segunda variable (distancia) en lugar de utilizar sólo una (retraso en la salida).

¿Por qué no utilizar todas las variables del conjunto de datos? ¿O al menos muchas más? En concreto, me gustaría utilizar la variable TAXI_OUT: si es demasiado alta, el vuelo se quedará atascado en la pista esperando a que la torre del aeropuerto permita que el avión despegue, por lo que es probable que el vuelo se retrase. El enfoque de Naive Bayes del Capítulo 6 era bastante limitado en cuanto a la posibilidad de incorporar variables adicionales. A medida que añadiéramos variables, tendríamos que seguir dividiendo el conjunto de datos en intervalos cada vez más pequeños. Entonces nos encontraríamos con que muchos de nuestros intervalos contendrían muy pocas muestras, lo que daría lugar a superficies de decisión que no se comportarían bien. Recuerda que, después de clasificar los datos por distancia, descubrimos que el límite de decisión del retraso en la salida se comportaba bastante bien: los retrasos en la salida por encima de cierto umbral se asociaban a que el vuelo no llegaba ...

Get Ciencia de Datos en la Plataforma en la Nube de Google, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.