Capítulo 6. Clasificador bayesiano con Apache Spark en Cloud Dataproc
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Habiéndome acostumbrado a ejecutar consultas en BigQuery, donde no había clusters que gestionar, me da pavor volver a configurar y gestionar clusters de Hadoop. Pero te prometí un recorrido por la ciencia de datos en la nube, y en muchas empresas, Hadoop desempeña un papel importante en ello.
En este capítulo, abordamos la siguiente fase de nuestro problema de ciencia de datos, creando un modelo Bayes para predecir el retraso probable en la llegada de un vuelo. Lo haremos mediante un flujo de trabajo integrado que incluye BigQuery y Spark SQL.
Todos los fragmentos de código de este capítulo están disponibles en la carpeta 06_dataproc del repositorio GitHub del libro. Consulta el archivo README.md de ese directorio para obtener instrucciones sobre cómo realizar los pasos descritos en este capítulo.
MapReduce y el ecosistema Hadoop
MapReduce fue descrito en un artículo de Jeff Dean y Sanjay Ghemawat como una forma de procesar grandes conjuntos de datos en un clúster de máquinas. Demostraron que muchas tareas del mundo real pueden descomponerse en una secuencia de dos tipos de funciones: funciones map
que procesan pares clave-valor para generar pares clave-valor intermedios, y funciones reduce
que fusionan todos los valores intermedios asociados a la misma clave. Un marco flexible y de propósito ...
Get Ciencia de Datos en la Plataforma en la Nube de Google, 2ª Edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.