Kapitel 11. Arbeiten mit Ausrichtungsdaten
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
In Kapitel 9 haben wir die Bereichsformate wie BED und GTF kennengelernt, die häufig verwendet werden, um genomische Bereichsdaten zu speichern, die mit genomischen Merkmalsannotationen wie Genmodellen verbunden sind. Andere bereichsbasierte Formate wurden für die Speicherung großer Mengen von Alignment-Daten entwickelt - zum Beispiel für die Ergebnisse des Alignments von Millionen (oder Milliarden) von Sequenzierungs-Reads mit hohem Durchsatz an einem Genom. In diesem Kapitel befassen wir uns mit dem am weitesten verbreiteten Format für das Alignment von Hochdurchsatzdaten: dem SAM-Format (Sequence Alignment/Mapping) für Mapping-Daten (und seinem binären Pendant, BAM). Die Formate SAM und BAM sind die Standardformate für die Speicherung von Sequenzierungs-Reads, die auf eine Referenz gemappt werden.
Wir untersuchen SAM und BAM aus zwei Gründen. Erstens: Ein großer Teil der Bioinformatikarbeit besteht in der Bearbeitung von Alignment-Dateien. Nahezu jedes Hochdurchsatz-Sequenzierungsexperiment beinhaltet einen Alignment-Schritt, der Alignment-Daten im SAM/BAM-Format erzeugt. Da jeder Sequenzierungs-Read einen Alignment-Eintrag hat, sind die Alignment-Dateien riesig und erfordern platzsparende, komplexe Binärdateiformate. Außerdem geben moderne Aligner eine unglaubliche Menge an nützlichen Informationen ...
Get Bioinformatik Datenkenntnisse now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.