Capítulo 15. Servicio de Optimización de Consultas

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Ahora estamos listos para poner en funcionamiento los conocimientos en producción. Los usuarios de datos han escrito la lógica empresarial para generar perspectivas en forma de cuadros de mando, modelos ML, etc. La lógica de transformación de datos se escribe como consultas SQL o modelos de programación de big data (como Apache Spark, Beam, etc.) implementados en Python, Java, Scala, etc. Este capítulo se centra en la optimización de las consultas y los programas de big data.

La diferencia entre consultas buenas y malas es bastante significativa. Por ejemplo, basándonos en la experiencia del mundo real, no es raro que una consulta de producción implementada se ejecute durante más de 4 horas, cuando tras su optimización podría ejecutarse en menos de 10 minutos. Las consultas de larga duración que se ejecutan repetidamente son candidatas al ajuste.

Los usuarios de datos no son ingenieros, lo que conlleva varios puntos problemáticos para el ajuste de consultas. En primer lugar, los motores de consulta como Hadoop, Spark y Presto tienen una plétora de mandos. Entender qué mandos ajustar y su impacto no es trivial para la mayoría de los usuarios de datos y requiere un profundo conocimiento del funcionamiento interno de los motores de consulta. No hay balas de plata: los valores óptimos de los mandos para la consulta ...

Get La hoja de ruta de los datos de autoservicio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.