Kapitel 3. Großsprachige Basismodelle
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 2 hast du gelernt, wie du das Eingabeaufforderung-Engineering durchführst und das kontextbezogene Lernen mit einem bestehenden Basismodell nutzt. In diesem Kapitel erfährst du, wie ein Basismodell trainiert wird, einschließlich der Trainingsziele und Datensätze. Es ist zwar nicht üblich, sein eigenes Basismodell von Grund auf zu trainieren, aber es lohnt sich, zu verstehen, wie viel Zeit, Aufwand und Komplexität für diesen rechenintensiven Prozess erforderlich sind.
Um ein Großsprachenmodell mit mehreren Milliarden Parametern von Grund auf zu trainieren, was als Pretraining bezeichnet wird, sind Millionen von GPU-Rechenstunden, Billionen von Daten-Token und eine Menge Geduld erforderlich. In diesem Kapitel lernst du die empirischen Skalierungsgesetze kennen, die in dem populären Chinchilla Paper für das Pretraining von Modellen beschrieben werden.1
Beim Training des BloombergGPT-Modells, zum Beispiel, nutzten die Forscher die Skalierungsgesetze von Chinchilla als Ausgangspunkt, benötigten aber dennoch eine Menge Versuch und Irrtum, wie im BloombergGPT-Papier erläutert.2 Mit einem GPU-Rechenbudget von 1,3 Millionen GPU-Stunden wurde BloombergGPT mit einem großen verteilten Cluster von GPU-Instanzen mit Amazon SageMaker trainiert.
Hinweis
Dieses Kapitel befasst sich eingehend mit dem Vortraining ...
Get Generative KI auf AWS now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.