Kapitel 15. Postmortale Kultur: Aus dem Scheitern lernen

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Der Preis des Scheiterns ist Bildung.

Devin Carraway

Als SREs arbeiten wir mit großen, komplexen, verteilten Systemen. Wir erweitern unsere Dienste ständig um neue Funktionen und fügen neue Systeme hinzu. Angesichts unseres Umfangs und der Geschwindigkeit der Veränderungen sind Störungen und Ausfälle unvermeidlich. Wenn ein Zwischenfall auftritt, beheben wir das zugrunde liegende Problem, und die Dienste kehren zu ihren normalen Betriebsbedingungen zurück. Wenn wir nicht über ein formalisiertes Verfahren verfügen, um aus diesen Vorfällen zu lernen, können sie sich unendlich oft wiederholen. Unkontrolliert können sich die Vorfälle vervielfachen oder sogar kaskadenförmig ausbreiten, so dass ein System und seine Betreiber überfordert sind und letztendlich unsere Nutzerinnen und Nutzer beeinträchtigt werden. Deshalb sind Postmortems ein unverzichtbares Instrument für SRE.

Das Postmortem-Konzept ist in der Technologiebranche gut bekannt[All12]. Ein Postmortem ist eine schriftliche Aufzeichnung eines Vorfalls, seiner Auswirkungen, der Maßnahmen zur Schadensbegrenzung oder -behebung, der Grundursache(n) und der Folgemaßnahmen, um zu verhindern, dass sich der Vorfall wiederholt. In diesem Kapitel werden Kriterien für die ...

Get Site Reliability Engineering now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.