Capítulo 11. Estar de guardia

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Estar de guardia es un deber crítico que muchos equipos de operaciones e ingeniería deben asumir para mantener sus servicios fiables y disponibles. Sin embargo, hay varios escollos en la organización de las rotaciones y responsabilidades de guardia que, si no se evitan, pueden tener graves consecuencias para los servicios y para los equipos. En este capítulo se describen los principios fundamentales del enfoque de las guardias que los Ingenieros de Fiabilidad del Sitio (SRE) de Google han desarrollado a lo largo de los años, y se explica cómo ese enfoque ha dado lugar a servicios fiables y a una carga de trabajo sostenible a lo largo del tiempo.

Introducción

Varias profesiones requieren que los empleados realicen algún tipo de servicio de guardia, lo que implica estar disponible para recibir llamadas tanto en horario laboral como no laboral. En el contexto de las TI, las actividades de guardia han sido realizadas históricamente por equipos de operaciones dedicados, a los que se ha encomendado la responsabilidad principal de mantener en buen estado el servicio o servicios de los que son responsables.

Muchos servicios importantes de Google, por ejemplo, Búsqueda, Anuncios y Gmail, tienen equipos dedicados de SRE responsables del rendimiento y la fiabilidad de estos servicios. ...

Get Ingeniería de Fiabilidad del Sitio now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.