Capítulo 16. FASTX grep: Creación de un programa utilitario para seleccionar secuencias
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Un colega me pidió una vez que encontrara todas las secuencias de ARN de un archivo FASTQ que tuvieran una descripción o un nombre que contuviera la cadena LSU (de ARN de subunidad larga ). Aunque es posible resolver este problema para los archivos FASTQ utilizando el programa grep
1 para encontrar todas las líneas de un archivo que coincidan con algún patrón, escribir una solución en Python te permite crear un programa que podría ampliarse para manejar otros formatos, como FASTA, así como para seleccionar registros basándose en otros criterios, como la longitud o el contenido de GC. Además, puedes añadir opciones para cambiar el formato de la secuencia de salida e introducir comodidades para el usuario, como adivinar el formato del archivo de entrada basándote en la extensión del archivo.
En este capítulo aprenderás
-
Sobre la estructura de un archivo FASTQ
-
Cómo realizar una coincidencia de expresión regular insensible a mayúsculas y minúsculas
-
Sobre las ideas DWIM (Haz lo que quiero decir) y DRY (No te repitas) en el código
-
Cómo utilizar las operaciones
and
yor
para reducir valores booleanos y bits
Encontrar líneas en un archivo utilizando grep
El programa grep
puede encontrar todas las líneas de un archivo que coincidan con un patrón determinado. Si busco LSU en ...
Get Dominar Python para Bioinformática now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.