Capítulo 10. Ejecutar flujos de trabajo únicos a escala con la API de canalizaciones
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 8, empezamos a ejecutar flujos de trabajo por primera vez, trabajando en una máquina virtual personalizada en GCP. Sin embargo, esa configuración de una sola máquina no nos permitía aprovechar el mayor punto fuerte de la nube: ¡la disponibilidad de un número aparentemente infinito de máquinas bajo demanda! Así que en este capítulo, utilizamos un servicio ofrecido por GCP llamado Genomics Pipelines API (PAPI), que funciona como una especie de programador de trabajos para las instancias de GCP Compute Engine, para hacer exactamente eso.
Primero, probamos simplemente cambiando la configuración de Cromwell en nuestra máquina virtual para enviar la ejecución del trabajo a PAPI en lugar de a la máquina local. Después, probaremos una herramienta llamada WDL_Runner
que envuelve a Cromwell y gestiona los envíos a PAPI, lo que facilita "lanzar y olvidar" las ejecuciones de la Biblioteca Digital Mundial. Ambas opciones, que exploramos en la primera mitad de este capítulo, nos abrirán la puerta para ejecutar pipelines GATK a gran escala que no podríamos haber ejecutado en nuestra configuración de una sola máquina virtual en el Capítulo 9. Por el camino, también discutiremos consideraciones importantes como el tiempo de ejecución, el coste, la portabilidad y la eficiencia general ...
Get Genómica en la nube now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.