Capítulo 16. Seguimiento de las interrupciones
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Mejorar la fiabilidad a lo largo del tiempo sólo es posible si se parte de una base conocida y se puede hacer un seguimiento del progreso. "Outalator", nuestro rastreador de interrupciones, es una de las herramientas que utilizamos para hacer precisamente eso. Outalator es un sistema que recibe pasivamente todas las alertas enviadas por nuestros sistemas de monitoreo y nos permite anotar, agrupar y analizar estos datos.
Aprender sistemáticamente de los problemas pasados es esencial para una gestión eficaz de los servicios. Las autopsias (véase el Capítulo 15) proporcionan información detallada sobre las interrupciones individuales, pero son sólo una parte de la respuesta. Sólo se redactan para incidentes con un gran impacto, por lo que los problemas que tienen individualmente un impacto pequeño pero son frecuentes y generalizados no entran en su ámbito. Del mismo modo, las autopsias tienden a proporcionar información útil para mejorar un único servicio o conjunto de servicios, pero pueden pasar por alto oportunidades que tendrían un efecto pequeño en casos individuales, u oportunidades que tienen una mala relación coste/beneficio, pero que tendrían un gran impacto horizontal.1
También podemos obtener información útil de preguntas como "¿Cuántas alertas por turno de guardia ...
Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.