Capítulo 10. Trabajar con datos secuenciales
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Uno de los problemas centrales de la Bioinformática es tratar con una profusión de formatos de archivo (a menudo mal definidos o ambiguos). Algunos formatos ad hoc, sencillos y legibles por humanos, han alcanzado con el tiempo el estatus de normas de facto.
Peter Cock et al. (2010)
Los buenos programadores saben qué escribir. Los grandes saben qué reescribir (y reutilizar).
La Catedral y el BazarEric S. Raymond
Las secuencias de nucleótidos (y proteínas) se almacenan en dos formatos de texto plano muy extendidos en la bioinformática : FASTA y FASTQ-pronunciados fast-ah (o fast-A) y fast-Q, respectivamente. Hablaremos de cada formato y de sus limitaciones en esta sección, y luego veremos algunas herramientas para trabajar con datos en estos formatos. Éste es un capítulo breve, pero con una lección importante: ten cuidado con las trampas comunes cuando trabajes con formatos bioinformáticos ad hoc. Los errores simples sobre detalles menores como los formatos de archivo pueden consumir una cantidad desproporcionada de tiempo y energía para descubrirlos y solucionarlos, así que ten en cuenta estos detalles desde el principio.
El formato FASTA
El formato FASTA tiene su origen en la suite de alineación FASTA, creada por William R. Pearson y David J. Lipman. El formato FASTA se utiliza para almacenar cualquier tipo de datos ...
Get Habilidades en Datos Bioinformáticos now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.