Capítulo 6. Explorando

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Se ha dicho que es más fácil coger a una PYME de y formarla en ciencia de datos que al revés. No estoy seguro de estar de acuerdo al 100%, pero es cierto que los datos tienen matices y una PYME puede ayudar a desentrañarlos. Al comprender el negocio y los datos, pueden crear mejores modelos y tener un mayor impacto en su negocio.

Antes de crear un modelo, realizaré algunos análisis exploratorios de datos. Esto me da una idea de los datos, pero también es una gran excusa para reunirme y discutir cuestiones con las unidades de negocio que controlan esos datos.

Tamaño de los datos

De nuevo, aquí estamos utilizando el conjunto de datos Titanic. La propiedad pandas .shape devolverá una tupla con el número de filas y columnas:

>>> X.shape
(1309, 13)

Podemos ver que este conjunto de datos tiene 1.309 filas y 13 columnas.

Estadísticas resumidas

Podemos utilizar pandas para obtener estadísticas resumidas de nuestros datos. El método.describe también nos dará el recuento de valores no NaN. Veamos los resultados de la primera y la última columna:

>>> X.describe().iloc[:, [0, -1]]
            pclass   embarked_S
count  1309.000000  1309.000000
mean     -0.012831     0.698243
std       0.995822     0.459196
min      -1.551881     0.000000
25%      -0.363317     0.000000
50%       0.825248     1.000000
75%       0.825248     1.000000
max       0.825248     1.000000

La fila de recuento nos indica que ambas columnas están rellenas. ...

Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.