Capítulo 8. Escalar más allá del paralelismo de datos: Paralelismo de Modelos, Pipelines, Tensores e Híbridos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Has leído sobre varios conceptos y técnicas relacionados con el entrenamiento distribuido en los capítulos anteriores de este libro. El Capítulo 6 expuso los fundamentos del entrenamiento distribuido de modelos y discutió las posibles dimensiones del escalado, mientras que el Capítulo 7 proporcionó conocimientos prácticos para escalar en función de la dimensión de los datos.
Como aprendiste en el Capítulo 3, una tarea puede paralelizarse típicamente de dos formas: aplicando el mismo conjunto de instrucciones sobre datos diferentes (SIMD) o descomponiendo el conjunto de instrucciones de forma que diferentes partes del algoritmo puedan realizarse al mismo tiempo sobre datos diferentes (MIMD). El paralelismo de datos en la formación de modelos es afín a SIMD, mientras que las otras formas de paralelismo sobre las que leerás en este capítulo son afines a MIMD.
Escalar el entrenamiento del modelo utilizando técnicas paralelas de datos suele considerarse "débil" porque sólo estás escalando horizontalmente, utilizando sólo una de las muchas dimensiones posibles de escala (es decir, los datos). Tu escalabilidad global está limitada por el número de trabajadores paralelos que puedas tener, la capacidad de cada trabajador para ajustar tu modelo en su memoria disponible, ...
Get Aprendizaje profundo a escala now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.