Kapitel 3. Beschaffung von Daten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In diesem Kapitel geht es um den ersten Schritt des OSEMN-Modells: die Beschaffung von Daten. Denn ohne Daten können wir nicht viel Data Science betreiben. Ich gehe davon aus, dass die Daten, die du zur Lösung deines Data Science-Problems brauchst, bereits vorhanden sind. Deine erste Aufgabe besteht darin, diese Daten in einer Form auf deinen Computer (und möglicherweise auch in den Docker-Container) zu bekommen, mit der du arbeiten kannst.
Nach der Unix-Philosophie ist Text eine universelle Schnittstelle. Fast jedes Kommandozeilentool nimmt Text als Eingabe, produziert Text als Ausgabe oder beides. Das ist der Hauptgrund, warum Kommandozeilentools so gut zusammenarbeiten können. Aber wie wir noch sehen werden, kann auch nur Text in verschiedenen Formen vorliegen.
Daten können auf verschiedene Arten beschafft werden, z.B. durch Herunterladen von einem Server, durch Abfragen einer Datenbank oder durch eine Verbindung zu einer Web-API. Manchmal liegen die Daten in komprimierter Form oder in einem Binärformat vor, z.B. in einem Microsoft Excel Spreadsheet. In diesem Kapitel bespreche ich verschiedene Tools, die dabei helfen, dies von der Kommandozeile aus zu erledigen, z.B. curl
,1 in2csv
,2 sql2csv
,3 und tar
.4
Übersicht
In diesem Kapitel erfährst du, wie du..:
-
Lokale Dateien in das Docker-Image kopieren
-
Daten aus ...
Get Datenwissenschaft an der Kommandozeile, 2. now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.