Kapitel 8. Skalierung jenseits der Datenparallelität: Modell-, Pipeline-, Tensor- und Hybridparallelität

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den vorangegangenen Kapiteln dieses Buches hast du bereits über verschiedene Konzepte und Techniken im Zusammenhang mit verteiltem Training gelesen. In Kapitel 6 wurden die Grundlagen des verteilten Modelltrainings dargelegt und die möglichen Dimensionen der Skalierung erörtert, während Kapitel 7 praktisches Wissen zur Skalierung auf der Grundlage der Datendimension lieferte.

Wie du in Kapitel 3 gelernt hast, kann eine Aufgabe in der Regel auf zwei Arten parallelisiert werden: durch die Anwendung desselben Befehlssatzes auf verschiedene Daten (SIMD) oder durch die Zerlegung des Befehlssatzes, so dass verschiedene Teile des Algorithmus gleichzeitig auf verschiedenen Daten ausgeführt werden können (MIMD). Die datenparallele Modellbildung ist mit SIMD vergleichbar, während die anderen Formen der Parallelität, die du in diesem Kapitel kennenlernen wirst, mit MIMD vergleichbar sind.

Die Skalierung der Modellschulung mit datenparallelen Techniken wird oft als "schwach" angesehen, weil du nur horizontal skalierst und nur eine von vielen möglichen Skalierungsdimensionen (d.h. Daten) verwendest. Die Gesamtskalierbarkeit wird durch die Anzahl der parallelen Worker, die Fähigkeit jedes Workers, dein Modell in den verfügbaren Speicher einzupassen, und ...

Get Deep Learning im Maßstab now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.