Kapitel 9. Daten modellieren

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

In diesem Kapitel werden wir den vierten Schritt des OSEMN-Modells durchführen: die Modellierung von Daten. Allgemein gesprochen ist ein Modell eine abstrakte oder übergeordnete Beschreibung deiner Daten. Die Modellierung ist ein bisschen wie das Erstellen von Visualisierungen, denn wir treten einen Schritt von den einzelnen Datenpunkten zurück, um das Gesamtbild zu sehen.

Visualisierungen zeichnen sich durch Formen, Positionen und Farben aus: Wir können sie interpretieren, indem wir sie betrachten. Modelle hingegen werden intern durch Zahlen charakterisiert, was bedeutet, dass Computer sie nutzen können, um z. B. Vorhersagen über neue Datenpunkte zu treffen. (Wir können Modelle immer noch visualisieren, damit wir versuchen können, sie zu verstehen und zu sehen, wie sie sich verhalten).

In diesem Kapitel gehe ich auf drei Arten von Algorithmen ein, die häufig zur Datenmodellierung verwendet werden:

  • Dimensionalitätsreduktion

  • Regression

  • Klassifizierung

Diese Algorithmen stammen aus dem Bereich der Statistik und des maschinellen Lernens, daher werde ich das Vokabular ein wenig ändern. Nehmen wir an, ich habe eine CSV-Datei, auch bekannt als Datensatz. Jede Zeile, mit Ausnahme der Kopfzeile, wird als ein Datenpunkt betrachtet. Jeder Datenpunkt hat ein oder mehrere Merkmale oder Eigenschaften, die gemessen wurden. ...

Get Datenwissenschaft an der Kommandozeile, 2. now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.