Capítulo 30. Ingeniería de proyectos reproducibles de ciencia de datos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Dr. Tianhui Michael Li

Al igual que cualquier campo científico, la ciencia de datos se basa en la reproducibilidad. En un proyecto reproducible, otra persona (incluido el futuro tú) puede recrear tus resultados ejecutando un simple comando. Por un lado, esto significa que debes registrar el código de tu análisis en una herramienta de control de código fuente como Git. Por otro, también significa seguir las buenas prácticas de DevOps, como incluir listas de dependencias en formatos legibles por máquina (como requirements.txt para pip o environment.yml para Conda). Puedes ir un paso más allá y utilizar un Dockerfile. También deben incluirse los comandos necesarios para instalar y ejecutar el análisis. Por último, asegúrate de documentar claramente qué ejecutar en un archivo README.md, o preferiblemente en un ejecutor de tareas como Make.

Otra pieza importante de la reproducibilidad es eliminar de tu proceso algo que llamaremos aleatoriedad algorítmica, para mantener la coherencia. Si tus datos se están subconjuntando a partir de un conjunto de datos mayor o tu análisis depende de una condición aleatoria inicial (muchos de tus favoritos lo hacen), estás dependiendo de un generador de números aleatorios. ...

Get 97 cosas que todo ingeniero de datos debe saber now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.