Kapitel 5. Unsere Daten ausgeben

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Die Erstellung eines brauchbaren Modells erfolgt in mehreren Schritten, darunter die Parameterschätzung, die Modellauswahl und -abstimmung sowie die Leistungsbewertung. Zu Beginn eines neuen Projekts steht in der Regel eine begrenzte Menge an Daten für all diese Aufgaben zur Verfügung, die wir als verfügbares Datenbudget bezeichnen können. Wie sollen die Daten für die verschiedenen Schritte oder Aufgaben verwendet werden? Die Idee der Datenverwendung ist eine wichtige erste Überlegung bei der Modellierung, vor allem in Bezug auf die empirische Validierung.

Warnung

Wenn Daten für mehrere Aufgaben wiederverwendet werden, anstatt sorgfältig aus dem begrenzten Datenbudget "ausgegeben" zu werden, erhöhen sich bestimmte Risiken, wie z. B. das Risiko, Verzerrungen zu verstärken oder Effekte durch methodische Fehler zu verstärken.

Wenn eine große Menge an Daten zur Verfügung steht, ist es eine kluge Strategie, bestimmte Teilmengen von Daten für verschiedene Aufgaben zu verwenden, anstatt die größtmögliche Menge (oder sogar alle) nur für die Schätzung der Modellparameter zu verwenden. Eine mögliche Strategie (wenn sowohl Daten als auch Prädiktoren im Überfluss vorhanden sind) besteht zum Beispiel darin, eine bestimmte Teilmenge der Daten zu verwenden, um zu bestimmen, welche Prädiktoren informativ sind, bevor überhaupt eine ...

Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.