Capítulo 12. Ingeniería de funciones en PySpark

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Este capítulo trata de los patrones de diseño para trabajar con características de los datos -cualquier atributo medible, desde el precio de los coches a los valores de los genes, el recuento de hemoglobina o los niveles de educación- cuando se construyen modelos de aprendizaje automático (también conocido como ingeniería de características). Estos procesos (extracción, transformación y selección de características) son esenciales para construir modelos de aprendizaje automático eficaces. La ingeniería de características es uno de los temas más importantes del aprendizaje automático, porque el éxito o el fracaso de un modelo a la hora de predecir el futuro depende principalmente de las características que elijas.

Spark proporciona una completa API de aprendizaje automático para muchos algoritmos bien conocidos, como la regresión lineal, la regresión logística y los árboles de decisión. El objetivo de este capítulo es presentar las herramientas y técnicas fundamentales de PySpark que puedes utilizar para construir todo tipo de canalizaciones de aprendizaje automático. El capítulo presenta las potentes herramientas y utilidades de aprendizaje automático de Spark y proporciona ejemplos utilizando la API de PySpark. Las habilidades que aprendas aquí serán útiles para un aspirante a científico de datos o ingeniero de datos. ...

Get Algoritmos de datos con Spark now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.