Kapitel 10. Resampling zur Bewertung der Leistung
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Wir haben bereits mehrere Teile behandelt, die zusammengefügt werden müssen, um die Leistung eines Modells zu bewerten. In Kapitel 9 wurden Statistiken zur Messung der Modellleistung beschrieben. In Kapitel 5 wurde die Idee der Datenausgabe vorgestellt, und wir haben den Testsatz empfohlen, um eine unverzerrte Schätzung der Leistung zu erhalten. In der Regel müssen wir jedoch die Leistung eines Modells oder sogar mehrerer Modelle verstehen , bevor wir die Testmenge verwenden.
Warnung
In der Regel können wir nicht entscheiden, welches endgültige Modell wir mit der Testmenge verwenden, bevor wir die Leistung des Modells bewertet haben. Es besteht eine Diskrepanz zwischen unserem Bedürfnis, die Leistung zuverlässig zu messen, und den uns zur Verfügung stehenden Daten (Training und Tests).
In diesem Kapitel beschreiben wir einen Ansatz namens Resampling, der diese Lücke schließen kann. Resampling-Schätzungen der Leistung können auf ähnliche Weise auf neue Daten verallgemeinert werden wie Schätzungen aus einer Testmenge. Kapitel 11 ergänzt dieses Kapitel, indem es statistische Methoden vorstellt, die Resampling-Ergebnisse vergleichen.
Um den Wert des Resamplings richtig einschätzen zu können, schauen wir uns zunächst den Resubstitutionsansatz an, der oft fehlschlägt.
Der Ansatz der Resubstitution
Get Aufgeräumtes Modellieren mit R now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.