Capítulo 6. Cadenas y tuberías de algoritmos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Para muchos algoritmos de aprendizaje automático, la representación concreta de los datos que proporciones es muy importante, como vimos en el Capítulo 4. Esto comienza con el escalado de los datos y la combinación de características a mano, y llega hasta el aprendizaje de características mediante aprendizaje automático no supervisado, como vimos en el Capítulo 3. En consecuencia, la mayoría de las aplicaciones de aprendizaje automático requieren no sólo la aplicación de un único algoritmo, sino el encadenamiento de muchos pasos de procesamiento y modelos de aprendizaje automático diferentes. En este capítulo veremos cómo utilizar la clase Pipeline
para simplificar el proceso de construcción de cadenas de transformaciones y modelos. En concreto, veremos cómo podemos combinar Pipeline
yGridSearchCV
para buscar sobre los parámetros de todos los pasos de procesamiento a la vez.
Como ejemplo de la importancia de encadenar modelos, hemos observado que podemos mejorar mucho el rendimiento de una SVM de núcleo en el conjunto de datos cancer
utilizando el MinMaxScaler
para el preprocesamiento. Aquí tienes el código para dividir los datos, calcular el mínimo y el máximo, escalar los datos y entrenar la SVM:
In[1]:
from
sklearn.svm
import
SVC
from
sklearn.datasets
import
load_breast_cancer
from
sklearn.model_selection
import
Get Introducción al Aprendizaje Automático con Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.