Capítulo 9. El análisis de los datos genómicosy el proyecto BDG
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La llegada de la tecnología de secuenciación del ADN de nueva generación (NGS) ha transformado rápidamente las ciencias de la vida en un campo impulsado por los datos. Sin embargo, hacer el mejor uso posible de estos datos choca con un ecosistema computacional tradicional que se basa en primitivas de bajo nivel y difíciles de usar para la computación distribuida y en una jungla de formatos de archivo basados en texto semiestructurado.
Este capítulo tiene dos objetivos principales. En primer lugar, presentamos un conjunto de formatos populares de serialización y archivo (Avro y Parquet) que simplifican muchos problemas en la gestión de datos. Estas tecnologías de serialización nos permiten convertir los datos en representaciones binarias compactas y fáciles de usar. Esto facilita el movimiento de datos a través de redes y ayuda a la compatibilidad cruzada entre lenguajes de programación. Aunque utilizaremos las técnicas de serialización de datos con datos genómicos, los conceptos serán útiles siempre que procesemos grandes cantidades de datos.
En segundo lugar, mostraremos cómo realizar tareas genómicas típicas de en el ecosistema PySpark. En concreto, utilizaremos PySpark y la biblioteca de código abierto ADAM para manipular grandes cantidades de datos genómicos y procesar datos de múltiples fuentes ...
Get Analítica avanzada con PySpark now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.