Capítulo 30. Integrar una SRE para recuperarse de una sobrecarga operativa
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La política habitual de los equipos de SRE de Google es dividir su tiempo a partes iguales entre los proyectos y el trabajo de operaciones reactivas. En la práctica, este equilibrio puede verse alterado durante meses por un aumento del volumen diario de tickets. Una cantidad excesiva de trabajo de operaciones es especialmente peligrosa porque el equipo de SRE podría agotarse o ser incapaz de avanzar en el trabajo de proyectos. Cuando un equipo debe dedicar una cantidad desproporcionada de tiempo a resolver tickets a costa de dedicar tiempo a mejorar el servicio, la escalabilidad y la fiabilidad se resienten.
Una forma de aliviar esta carga es transferir temporalmente un SRE al equipo sobrecargado. Una vez integrado en un equipo, el SRE se centra en mejorar las prácticas del equipo en lugar de simplemente ayudarle a vaciar la cola de tickets. El SRE observa la rutina diaria del equipo y hace recomendaciones para mejorar sus prácticas. Esta consulta proporciona al equipo una nueva perspectiva sobre sus rutinas que los miembros del equipo no pueden proporcionar por sí mismos.
Cuando utilices este enfoque, no es necesario trasladar a más de un ingeniero. Dos SRE no producen necesariamente mejores resultados y, de hecho, pueden causar problemas ...
Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.