Capítulo 7. Preprocesar datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Este capítulo explorará los pasos comunes del preprocesamiento utilizando estos datos:
>>>
X2
=
pd
.
DataFrame
(
...
{
...
"a"
:
range
(
5
),
...
"b"
:
[
-
100
,
-
50
,
0
,
200
,
1000
],
...
}
...
)
>>>
X2
a b
0 0 -100
1 1 -50
2 2 0
3 3 200
4 4 1000
Normaliza
Algunos algoritmos, como SVM, funcionan mejor cuando los datos están estandarizados. Cada columna debe tener un valor medio de 0 y una desviación estándar de 1.Sklearn proporciona un método .fit_transform
que combina .fit
y.transform
:
>>>
from
sklearn
import
preprocessing
>>>
std
=
preprocessing
.
StandardScaler
()
>>>
std
.
fit_transform
(
X2
)
array([[-1.41421356, -0.75995002],
[-0.70710678, -0.63737744],
[ 0. , -0.51480485],
[ 0.70710678, -0.02451452],
[ 1.41421356, 1.93664683]])
Tras el ajuste, hay varios atributos que podemos inspeccionar:
>>>
std
.
scale_
array([ 1.41421356, 407.92156109])
>>>
std
.
mean_
array([ 2., 210.])
>>>
std
.
var_
array([2.000e+00, 1.664e+05])
Aquí tienes una versión para pandas. Recuerda que tendrás que seguir la media y la desviación típica originales si utilizas esto para el preprocesamiento. Cualquier muestra que vayas a utilizar para predecir después tendrá que estar normalizada con esos mismos valores:
>>>
X_std
=
(
X2
-
X2
.
mean
())
/
X2
.
std
()
>>>
X_std
a b
0 -1.264911 -0.679720
1 -0.632456 -0.570088
2 0.000000 -0.460455
3 0.632456 -0.021926
4 1.264911 1.732190 ...
Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.