Capítulo 9. Respuesta a incidentes

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

Todo el mundo quiere que sus servicios funcionen siempre sin problemas, pero vivimos en un mundo imperfecto en el que se producen interrupciones. ¿Qué ocurre cuando un problema no tan ordinario y urgente requiere que varias personas o equipos lo resuelvan? De repente te enfrentas simultáneamente a la gestión de la respuesta al incidente y a la resolución del problema.

Resolver un incidente significa mitigar el impacto y/o restablecer el servicio a su estado anterior. Gestionar un incidente significa coordinar los esfuerzos de los equipos de respuesta de forma eficiente y garantizar que la comunicación fluya tanto entre los equipos de respuesta como hacia los interesados en el progreso del incidente. Muchas empresas tecnológicas, incluida Google, han adoptado y adaptado las buenas prácticas de gestión de incidentes de las organizaciones de respuesta a emergencias, que llevan muchos años utilizando estas prácticas.

La premisa básica de la gestión de incidentes es responder a un incidente de forma estructurada. Los incidentes a gran escala pueden ser confusos; una estructura acordada de antemano por los equipos puede reducir el caos. Formular normas sobre cómo comunicarse y coordinar sus esfuerzos antes de que se produzca el desastre ...

Get El cuaderno de trabajo de la fiabilidad del sitio web now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.