Teil III. Praktiken
Vereinfacht gesagt, betreiben SREs Dienste - eine Reihe von zusammenhängenden Systemen, die für interne oder externe Nutzer betrieben werden - und sind letztendlich für den Zustand dieser Dienste verantwortlich. Der erfolgreiche Betrieb eines Dienstes umfasst eine Vielzahl von Aktivitäten: die Entwicklung von Überwachungssystemen, die Planung von Kapazitäten, die Reaktion auf Vorfälle, die Beseitigung der Ursachen von Ausfällen und so weiter. Dieser Abschnitt befasst sich mit der Theorie und Praxis der täglichen Arbeit eines SRE: dem Aufbau und Betrieb großer verteilter Rechensysteme.
Wir können den Gesundheitszustand eines Dienstes - ähnlich wie Abraham Maslow die menschlichen Bedürfnisse kategorisiert hat [Mas43]- von den grundlegendsten Anforderungen, die ein System braucht, um überhaupt als Dienst zu funktionieren, bis hin zu den höheren Funktionsebenen, die Selbstverwirklichung und aktive Kontrolle über die Richtung des Dienstes ermöglichen, anstatt reaktiv Brände zu bekämpfen, charakterisieren. Dieses Verständnis ist so grundlegend für die Bewertung von Diensten bei Google, dass es erst explizit entwickelt wurde, als eine Reihe von Google SREs, darunter unser ehemaliger Kollege Mikey Dickerson,1 vorübergehend in die völlig andere Kultur der US-Regierung eintraten, um bei der Einführung von healthcare.gov Ende 2013 und Anfang 2014 zu helfen: Sie brauchten einen Weg, um zu erklären, wie man die Zuverlässigkeit der Systeme erhöhen kann.
Anhand dieser Hierarchie, ...
Get Site Reliability Engineering now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.