Kapitel 7. Datenparallelität
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 6 hast du die Grundlagen des verteilten Trainings kennengelernt und verschiedene Parallelisierungstechniken erforscht, mit denen du die Arbeitslast deines Modelltrainings vergrößern kannst. Dieses Kapitel baut auf den Konzepten der vorangegangenen Kapitel auf und taucht tief in die datenparallele Technik ein. Das Ziel dieses Kapitels ist es, ein umfassendes Verständnis dafür zu vermitteln, wie datenparalleles Training zustande kommt. Um dieses Ziel zu erreichen, werden Techniken zur Datenpartitionierung vorgestellt, es wird untersucht, wie die Arbeiter/innen an der Verteilung der Last beteiligt sind, und es werden verwandte Konzepte besprochen. Das Material in diesem Kapitel ist praxisorientiert, daher werden die meisten Szenarien Beispiele enthalten, die die Konzepte erläutern.
Datenpartitionierung
Wie im vorigen Kapitel erläutert hat, skaliert die Datenparallelität das Training, indem der Trainingskorpus unter den Arbeitern im System aufgeteilt wird. Ein Beispiel für eine sehr einfache Partitionierungsstrategie ist die Erstellung gleich großer Teilmengen deines Trainingskorpus. Wenn du 10 Worker hast und dein Haupttrainingskorpus 100 Datensätze mit den IDs [0, 1, 2, ... 99] enthält, wird er in 10 Teile aufgeteilt (auch bekannt als "sharded" oder "subsetted"), wobei jeder Worker 10 einzigartige Datensätze ...
Get Deep Learning im Maßstab now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.