Capítulo 6. Monitoreo de sistemas distribuidos

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Los equipos de SRE de Google tienen algunos principios básicos y buenas prácticas para crear sistemas de monitoreo y alerta satisfactorios. Este capítulo ofrece directrices sobre qué problemas deben interrumpir a un humano a través de una página, y cómo tratar los problemas que no son lo suficientemente graves como para activar una página.

Definiciones

No existe un vocabulario uniforme para hablar de todos los temas relacionados con el monitoreo. Incluso dentro de Google, el uso de los siguientes términos varía, pero aquí se enumeran las interpretaciones más comunes.

Monitoreo

Recoger, procesar, agregar y mostrar datos cuantitativos en tiempo real sobre un sistema, como recuentos y tipos de consultas, recuentos y tipos de errores, tiempos de procesamiento y vida útil de los servidores.

Monitoreo de caja blanca

Monitoreo basado en métricas expuestas por los internos del sistema, incluyendo logs, interfaces como la Interfaz de perfiles de la máquina virtual Java, o un manejador HTTP que emite estadísticas internas.

Monitoreo de caja negra

Probar el comportamiento visible externamente como lo vería un usuario.

Cuadro de mandos

Una aplicación (normalmente basada en web) que proporciona una vista resumida de las métricas principales de un servicio. Un panel de control ...

Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.