13章SLO文化の構築

Harold Treen

本書ではこれまで、SLOの重要性、SLOを実装する方法、および各部門をSLOに関与させる方法について説明してきました。エンジニアリングチームに属しているのが自分1人であれば、サービスの信頼性を高めることに取り掛かるのには十分です。そうでないなら、まだやるべきことがあります。

自分自身でここまで述べた原理を理解し実践することと、その原理を自分の組織全体に広め、他の人々と協力しながら一緒に作業することは別の問題です。エラーバジェットの使用や、機能凍結を実装するための議論にチームの関心を向けさせること、さらに外部のチームが管理するシステムに依存できるようにすることが必要です。SLOは、すべての人がそのプロセスに従って、信頼性の高いシステムの構築に力を注ぐときに、もっとも威力を発揮します。もし、依存しているシステムがそのように動作していれば、SLOの改善を繰り返し行い、その信頼性を向上させることが容易になります。1人だけで作業する場合は、いつも優先順位に悩むことになります。

これは、SLOを軌道に乗せるうえで困難な課題の1つです。計測値や監視、アラートなどの追加は、数日で行えるかもしれませんが、組織の仕組みを変えるには、パッケージのインストールやファイルの構成よりも時間がかかります。幸いなことに、この旅に出るのはあなたが初めてではありません。

6章では、自分の組織がSLOに基づいたアプローチを採用するように説得するにはどうすれば良いかを検討しましたが、この章では、読者のチームおよびその周辺にSLO文化を構築するための活動と手順を解説します。

13.1 SLOのない文化

アラートが鳴り響きます。何かジョブが失敗したのでしょうか。作業を中断して調べてみると、ジョブは再試行されて成功したようです。そこで、作業に戻ります。異なるジョブの別のアラートが発報されます。たぶん、データベース接続が不安定なだけでしょう。あなたは無視します。2時間後に顧客から苦情が寄せられます。あなたのサービスからデータがまったく返って来ないとのことです。それもしばらく前からだそうです。顧客たちは理由を調べようとあちこちに尋ね回って、やっとあなたのチームにたどり着きます。あなたは原因を調べて、ジョブが失敗した後に再起動されていなかったことがわかります。あなたは再度ジョブを実行し、1時間後に再び確認するように顧客に告げます。顧客は問題が解決したことを確認します。あなたは自分の機能開発の仕事に急いで戻ります。 ...

Get SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.