Capítulo 6. Cadenas y tuberías de algoritmos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Para muchos algoritmos de aprendizaje automático, la representación concreta de los datos que proporciones es muy importante, como vimos en el Capítulo 4. Esto comienza con el escalado de los datos y la combinación de características a mano, y llega hasta el aprendizaje de características mediante aprendizaje automático no supervisado, como vimos en el Capítulo 3. En consecuencia, la mayoría de las aplicaciones de aprendizaje automático requieren no sólo la aplicación de un único algoritmo, sino el encadenamiento de muchos pasos de procesamiento y modelos de aprendizaje automático diferentes. En este capítulo veremos cómo utilizar la clase Pipelinepara simplificar el proceso de construcción de cadenas de transformaciones y modelos. En concreto, veremos cómo podemos combinar Pipeline yGridSearchCV para buscar sobre los parámetros de todos los pasos de procesamiento a la vez.

Como ejemplo de la importancia de encadenar modelos, hemos observado que podemos mejorar mucho el rendimiento de una SVM de núcleo en el conjunto de datos cancerutilizando el MinMaxScaler para el preprocesamiento. Aquí tienes el código para dividir los datos, calcular el mínimo y el máximo, escalar los datos y entrenar la SVM:

In[1]:

from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import 

Get Introducción al Aprendizaje Automático con Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.