Kapitel 10. Datenzentrierte Skalierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In den Teilen I und II dieses Buches wurden Hardware-, Software- und Algorithmustechniken zur Skalierung deines Arbeitsaufkommens bei der Modellentwicklung behandelt. Teil III konzentriert sich auf Daten, Design, Prozesse und andere anwendungsspezifische Überlegungen, die für eine effektive Skalierung erforderlich sind. Wie in den Kapiteln 1 und 2 beschrieben, sind Daten seit mehr als zwei Jahrzehnten die Grundlage für den Erfolg von Deep Learning und es wird seit langem davon ausgegangen, dass eine Vergrößerung des Trainingsdatensatzes die Leistung des Modells weiter verbessern wird.1 Man sagt, dass Daten das Öl des 21. Jahrhunderts sind, und ähnlich wie Öl besitzen Daten Eigenschaften, die Innovationen vorantreiben können - wenn sie mit Sorgfalt genutzt und aufbereitet werden. Das ist eine echte Herausforderung, wie die Studie "2023 State of AI Infrastructure Survey" bestätigt,2 bestätigt, die Daten zu den drei größten Entwicklungsherausforderungen für Unternehmen zählt (zusammen mit Infrastruktur und Datenverarbeitung). Laut dieser Umfrage sehen zwei von fünf Unternehmen, die KI praktizieren, Daten als das größte Problem bei der KI-Entwicklung an.

Wie wichtig die Datenpflege ist, zeigt der Erfolg von ChatGPT, das vor allem durch den sorgfältigen Einsatz einer Reihe von Datenpflegetechniken zu einem sehr ...

Get Deep Learning im Maßstab now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.