Capítulo 12. Ajuste fino eficiente de grandes modelos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Como se ha comentado en en los capítulos anteriores de este libro, la capacidad de los modelos de aprendizaje profundo está aumentando rápidamente. La ley de escalado del aprendizaje profundo (analizada en el Capítulo 1) sigue alimentando la (sobre)parametrización, hasta el punto de que se han construido modelos a escala del cerebro humano con cientos de billones de parámetros.1 La tendencia general de la industria se está apartando del enfoque de eficacia probada de desarrollar modelos pequeños, creados para tareas específicas, para adaptar rápidamente modelos grandes, de propósito general, a la tarea en cuestión, mediante el uso de técnicas de ajuste fino y metaaprendizaje como las que se tratan en el Capítulo 11. Aunque este nuevo enfoque, sobre el que leerás más en el Capítulo 13, puede ser más económico en términos de coste de desarrollo, su eficacia aún está relativamente por probar.

Este cambio es bienvenido por su potencial para minimizar el tiempo de desarrollo y reducir el plazo de producción. Sin embargo, de acuerdo con el teorema de "no hay almuerzo gratis", conlleva sus propios retos, por ejemplo, cuando se trata de recursos de hardware limitados. Este capítulo se centra en el enfoque de adaptar un modelo mayor a una tarea específica y amplía el debate sobre el ajuste fino del capítulo anterior, ...

Get Aprendizaje profundo a escala now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.