Kapitel 11. Datenwissenschaft und R
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Data Science ist eine relativ neue Disziplin, auf die viele erst durch diesenArtikel von Mike Loukides von O'Reilly aufmerksam wurden. Es gibt zwar viele Definitionen in diesem Bereich, aber Loukides fasst seine detaillierten Beobachtungen und seine Teilnahme an diesem Bereich in dieser Definition zusammen:
Eine Datenanwendung schöpft ihren Wert aus den Daten selbst und erzeugt dadurch mehr Daten. Es ist nicht nur eine Anwendung mit Daten, sondern ein Datenprodukt. Data Science ermöglicht die Erstellung von Datenprodukten.
Eines der wichtigsten Open-Source-Ökosysteme für Data-Science-Software befindet sich bei Apache und umfasstHadoop(mit dem verteilten Dateisystem HDFS, Hadoop Map/Reduce,1 Ozone Objektspeicher und das Zeitplannungsprogramm Yarn), dieverteilte Datenbank Cassandra und das Rechenprogramm Spark. Eine aktuelle Liste findest du im Abschnitt "Module und verwandte Tools" auf der Hadoop-Seite.
Interessant ist, dass ein großer Teil dieser Infrastruktur, die für Datenwissenschaftler/innen selbstverständlich ist, in Java und Scala (einer JVM-Sprache) geschrieben ist. Der Rest ist in Python geschrieben, einer Sprache, die Java ergänzt.
Data-Science-Probleme können viele Einstellungen erfordern, daher geben wir nur ein Beispiel aus dem traditionellen DS, bei dem das Spark-Framework zum Einsatz kommt. Spark ...
Get Java Kochbuch, 4. Auflage now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.