Capítulo 17. Reducción de la dimensionalidad
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Existen muchas técnicas para descomponer características en un subconjunto más pequeño. Esto puede ser útil para el análisis exploratorio de datos, la visualización, la elaboración de modelos predictivos o la agrupación.
En este capítulo exploraremos el conjunto de datos Titanic utilizando diversas técnicas. Examinaremos PCA, UMAP, t-SNE y PHATE.
Estos son los datos:
>>>
ti_df
=
tweak_titanic
(
orig_df
)
>>>
std_cols
=
"pclass,age,sibsp,fare"
.
split
(
","
)
>>>
X_train
,
X_test
,
y_train
,
y_test
=
get_train_test_X_y
(
...
ti_df
,
"survived"
,
std_cols
=
std_cols
...
)
>>>
X
=
pd
.
concat
([
X_train
,
X_test
])
>>>
y
=
pd
.
concat
([
y_train
,
y_test
])
PCA
El Análisis de Componentes Principales (ACP) toma una matriz (X) de filas (muestras) y columnas (características). El ACP devuelve una nueva matriz que tiene columnas que son combinaciones lineales de las columnas originales. Estas combinaciones lineales maximizan la varianza.
Cada columna es ortogonal (un ángulo recto) a las demás columnas. Las columnas se ordenan por orden decreciente de varianza.
Scikit-learn tiene una implementación de este modelo. Es mejor normalizar los datos antes de ejecutar el algoritmo. Después de llamar al método .fit
, tendrás acceso a un atributo .explained_variance_ratio_
atributo que enumera el porcentaje de varianza de cada columna.
El ACP es útil para visualizar ...
Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.