Capítulo 2. Carga de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

2.0 Introducción

El primer paso en cualquier esfuerzo de aprendizaje automático es introducir los datos en bruto en nuestro sistema. Los datos brutos pueden ser un archivo de registro, un archivo de conjunto de datos, una base de datos o un almacén de blobs en la nube como Amazon S3. Además, a menudo querremos recuperar datos de múltiples fuentes.

Las recetas de este capítulo examinan métodos para cargar datos de diversas fuentes, como archivos CSV y bases de datos SQL. También cubrimos métodos para generar datos simulados con propiedades deseables para la experimentación. Por último, aunque hay muchas formas de cargar datos en el ecosistema Python, nos centraremos en el uso del amplio conjunto de métodos de la biblioteca pandas para cargar datos externos, y en el uso de scikit-learn -una biblioteca de aprendizaje automático de código abierto en Python- para generar datos simulados.

2.1 Cargar un conjunto de datos de muestra

Problema

Quieres cargar un conjunto de datos de muestra preexistente de la biblioteca scikit-learn.

Solución

scikit-learn incluye varios conjuntos de datos populares para que los utilices:

# Load scikit-learn's datasets
from sklearn import datasets

# Load digits dataset
digits = datasets.load_digits()

# Create features matrix
features = digits.data

# Create target vector
target = digits.target

# View first observation ...

Get Recetario de Aprendizaje Automático con Python, 2ª Edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.