Capítulo 12. Shell Scripting Bioinformático, Escritura de Pipelines y Paralelización de Tareas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

He esperado hasta el penúltimo capítulo de este libro para compartir un hecho lamentable: el trabajo bioinformático cotidiano a menudo implica una gran cantidad de tedioso procesamiento de datos. Los bioinformáticos suelen tener que ejecutar una secuencia de comandos no sólo en un archivo, sino en docenas (a veces incluso cientos) de archivos. En consecuencia, una gran parte de la bioinformática consiste en unir varios pasos de procesamiento en un proceso, y luego aplicar repetidamente este proceso a muchos archivos. No es un trabajo científico apasionante, pero es un obstáculo necesario antes de abordar análisis más apasionantes.

Aunque escribir pipelines es una carga diaria de los bioinformáticos, es esencial que los pipelines se escriban para que sean robustos y reproducibles. Los pipelines deben ser robustos ante los problemas que puedan surgir durante el procesamiento de los datos. Cuando ejecutamos una serie de comandos sobre los datos directamente en el shell, normalmente vemos claramente si algo va mal: los archivos de salida están vacíos cuando deberían contener datos o los programas salen con un error. Sin embargo, cuando ejecutamos datos a través de una cadena de procesamiento, sacrificamos la cuidadosa atención que prestamos a la salida de cada paso para obtener ...

Get Habilidades en Datos Bioinformáticos now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.