Capítulo 9. Estudio de caso utilizando múltiples herramientas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En este capítulo vamos a discutir qué hacer si necesitas utilizar "otras" herramientas para tu canalización particular de ciencia de datos. Python tiene una plétora de herramientas para manejar una amplia gama de formatos de datos. RStats tiene un gran repositorio de funciones matemáticas avanzadas. Scala es el lenguaje por defecto de motores de procesamiento de big data como Apache Spark y Apache Flink. Los programas heredados que sería costoso reproducir existen en cualquier número de lenguajes.

Una ventaja muy importante de Kubeflow es que los usuarios ya no tienen que elegir qué lenguaje de es mejor para todo su pipeline, sino que pueden utilizar el mejor lenguaje para cada trabajo (siempre que el lenguaje y el código sean contenedorizables).

Demostraremos estos conceptos mediante un ejemplo exhaustivo de eliminación de ruido en exploraciones por TC. Las tomografías computarizadas de baja dosis permiten a los médicos utilizarlas como herramienta de diagnóstico, ya que emiten una fracción de la dosis de radiación; sin embargo, estas tomografías suelen sufrir un aumento del ruido blanco. Los escáneres de TC vienen en un formato conocido como DICOM, y utilizaremos un contenedor con una biblioteca especializada llamada pydicom para cargar y procesar los datos en una matriz numpy.

Existen varios métodos ...

Get Kubeflow para el aprendizaje automático now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.