Kapitel 5. Ein Modell erstellen, das mit realen Daten funktioniert
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 4 haben wir einen Algorithmus zur Überwachung der Datenqualität mit unüberwachtem maschinellem Lernen vorgestellt. Es ist eine Sache, über diese Schritte zu lesen, aber eine ganz andere, ein Modell zu erstellen, das in der Praxis auf jedem beliebigen realen Datensatz gut funktioniert. Wenn du keine Strategien hast, um Nuancen wie Saisonalität, zeitbasierte Merkmale und Korrelationen zwischen den Spalten zu berücksichtigen, wird dein Modell oft dramatisch über- oder unteralarmieren.
Du musst nicht nur wissen, auf welche Fallstricke du achten musst, sondern auch dein Modell kontinuierlich anhand von Vergleichsdaten bewerten, um herauszufinden, wo und wie du es verbessern kannst. Wir stellen dir Methoden für effektive Modelltests vor, darunter auch Überlegungen zur Entwicklung einer Bibliothek, mit der du Chaos in perfekt funktionierende Daten bringen kannst (Stichwort: böses Lachen).
Datenherausforderungen und Abhilfemaßnahmen
Um dein Modell wirklich wertvoll und nicht nur laut zu machen, brauchst du Strategien, um die Herausforderungen zu meistern, die die Daten in der freien Natur mit sich bringen.
Saisonalität
Der Mensch ist ein sehr saisonales Lebewesen. Wir ändern unsere Verhaltensmuster je nach Tageszeit und Wochentag. Wir bezahlen unsere Rechnungen jeden Monat ungefähr ...
Get Die Überwachung der Datenqualität automatisieren now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.