Capítulo 6. Un viaje al sonido
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Una de las aplicaciones más exitosas del aprendizaje profundo es algo que llevamos con nosotros todos los días. Ya sea Siri o Google Now, los motores que hacen funcionar ambos sistemas y Alexa de Amazon son redes neuronales. En este capítulo, echaremos un vistazo a la biblioteca torchaudio
de PyTorch. Aprenderás a utilizarla para construir un proceso de clasificación de datos de audio con un modelo convolucional. Después, te sugeriré un enfoque diferente que te permitirá utilizar algunos de los trucos que aprendiste para las imágenes y obtener una buena precisión en el conjunto de datos de audio ESC-50.
Pero primero, echemos un vistazo al sonido en sí. ¿Qué es? ¿Cómo suele representarse en forma de datos, y nos da eso alguna pista sobre qué tipo de red neuronal deberíamos utilizar para obtener información de nuestros datos?
Sonido
El sonido se crea mediante la vibración del aire. Todos los sonidos que oímos son combinaciones de alta y baja presión que solemos representar en una forma de onda , como la de la Figura 6-1. En esta imagen, la onda situada por encima del origen es de alta presión, y la parte situada por debajo es de baja presión.
La Figura 6-2 muestra una forma de onda más compleja de una canción ...
Get Programación de PyTorch para Aprendizaje Profundo now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.