Capítulo 8. Reducción de la dimensionalidad

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Muchos problemas de aprendizaje automático implican miles o incluso millones de características para cada instancia de entrenamiento. Todas estas características no sólo hacen que el entrenamiento sea extremadamente lento, sino que también pueden hacer que sea mucho más difícil encontrar una buena solución, como verás. Este problema se conoce a menudo como la maldición de la dimensionalidad.

Afortunadamente, en los problemas del mundo real, a menudo es posible reducir considerablemente el número de características, convirtiendo un problema intratable en uno manejable. Por ejemplo, considera las imágenes MNIST (introducidas en el Capítulo 3): los píxeles de los bordes de la imagen son casi siempre blancos, por lo que podrías eliminar completamente estos píxeles del conjunto de entrenamiento sin perder mucha información. Como vimos en el capítulo anterior,(Figura 7-6) confirma que estos píxeles carecen totalmente de importancia para la tarea de clasificación. Además, dos píxeles vecinos suelen estar muy correlacionados: si los fusionas en un solo píxel (por ejemplo, tomando la media de las intensidades de los dos píxeles), no perderás mucha información.

Advertencia

Reducir la dimensionalidad provoca cierta pérdida de información, igual que comprimir una imagen en JPEG puede degradar su calidad, por lo que, aunque acelerará ...

Get Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow, 3ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.