Capítulo 9. Modelización de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En este capítulo vamos a realizar el cuarto paso del modelo OSEMN: modelar los datos. En términos generales, un modelo es una descripción abstracta o de alto nivel de tus datos. Modelar es un poco como crear visualizaciones, en el sentido de que estamos dando un paso atrás de los puntos de datos individuales para ver el panorama general.
Las visualizaciones se caracterizan por formas, posiciones y colores: podemos interpretarlas mirándolas. Los modelos, en cambio, se caracterizan internamente por números, lo que significa que los ordenadores pueden utilizarlos para hacer cosas como predicciones sobre nuevos puntos de datos. (Aun así, podemos visualizar modelos para intentar comprenderlos y ver cómo funcionan).
En este capítulo consideraré tres tipos de algoritmos utilizados habitualmente para modelar datos:
-
Reducción de la dimensionalidad
-
Regresión
-
Clasificación
Estos algoritmos proceden de el campo de la estadística y el aprendizaje automático, así que voy a cambiar un poco el vocabulario. Supongamos que tengo un archivo CSV , también conocido como conjunto de datos. Cada fila, excepto la cabecera, se considera un punto de datos. Cada punto de datos tiene una o más características, o propiedades que se han medido. A veces, un punto de datos también tiene una etiqueta, que es, en términos generales, un juicio o resultado. ...
Get Ciencia de datos en la línea de comandos, 2ª edición now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.