Capítulo 6. Explorando
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Se ha dicho que es más fácil coger a una PYME de y formarla en ciencia de datos que al revés. No estoy seguro de estar de acuerdo al 100%, pero es cierto que los datos tienen matices y una PYME puede ayudar a desentrañarlos. Al comprender el negocio y los datos, pueden crear mejores modelos y tener un mayor impacto en su negocio.
Antes de crear un modelo, realizaré algunos análisis exploratorios de datos. Esto me da una idea de los datos, pero también es una gran excusa para reunirme y discutir cuestiones con las unidades de negocio que controlan esos datos.
Tamaño de los datos
De nuevo, aquí estamos utilizando el conjunto de datos Titanic. La propiedad pandas .shape
devolverá una tupla con el número de filas y columnas:
>>>
X
.
shape
(1309, 13)
Podemos ver que este conjunto de datos tiene 1.309 filas y 13 columnas.
Estadísticas resumidas
Podemos utilizar pandas para obtener estadísticas resumidas de nuestros datos. El método.describe
también nos dará el recuento de valores no NaN. Veamos los resultados de la primera y la última columna:
>>>
X
.
describe
()
.
iloc
[:,
[
0
,
-
1
]]
pclass embarked_S
count 1309.000000 1309.000000
mean -0.012831 0.698243
std 0.995822 0.459196
min -1.551881 0.000000
25% -0.363317 0.000000
50% 0.825248 1.000000
75% 0.825248 1.000000
max 0.825248 1.000000
La fila de recuento nos indica que ambas columnas están rellenas. ...
Get Referencia de bolsillo sobre aprendizaje automático now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.