Kapitel 12. Bioinformatik-Shell-Scripting, Schreiben von Pipelines und Parallelisierung von Aufgaben
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Ich habe bis zum vorletzten Kapitel dieses Buches gewartet, um eine bedauerliche Tatsache mitzuteilen: Die alltägliche Arbeit in der Bioinformatik beinhaltet oft eine Menge mühsamer Datenverarbeitung. Bioinformatikerinnen und Bioinformatiker müssen regelmäßig eine Reihe von Befehlen nicht nur für eine Datei, sondern für Dutzende (manchmal sogar Hunderte) von Dateien ausführen. Daher besteht ein großer Teil der Bioinformatik darin, verschiedene Verarbeitungsschritte zu einer Pipeline zusammenzufügen, und diese Pipeline dann wiederholt auf viele Dateien anzuwenden. Das ist keine aufregende wissenschaftliche Arbeit, aber es ist eine notwendige Hürde, bevor man sich an spannendere Analysen wagt.
Das Schreiben von Pipelines gehört zu den täglichen Aufgaben von Bioinformatikern. Dabei ist es wichtig, dass die Pipelines robust und reproduzierbar sind. Pipelines müssen robust gegenüber Problemen sein, die bei der Datenverarbeitung auftreten können. Wenn wir eine Reihe von Befehlen für Daten direkt in der Shell ausführen, sehen wir in der Regel deutlich, wenn etwas schief läuft - die Ausgabedateien sind leer, obwohl sie Daten enthalten sollten, oder Programme werden mit einem Fehler beendet. Wenn wir die Daten jedoch durch eine Verarbeitungspipeline laufen ...
Get Bioinformatik Datenkenntnisse now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.