こんにちは、CTO室グループでQAスペシャリストを担っている依光です。
今年を振り返ってという視点から、施策として動き始めた「障害対応をFactから改善する取り組み」について紹介させてください。
今までの取り組みと課題
タイミーのプロダクト部ではFour Keysを活用して改善サイクルに取り組んでおり、 プロダクトの品質を改善するという側面から「変更失敗率」と「サービス復元時間」を 計測しています。 この「サービス復元時間」を短縮するに当たり、障害を時系列にまとめて事後検証として 振り返るポストモーテムだけでは、改善するポイントを客観的に判断することが難しい という課題がありました。
取り入れた施策
障害発生の時間を短縮するために発生時間の内訳を計測して、客観的に判断するようにしました。 まず計測する際に時間を分解する切り口は、O'Reilly社から出版されている「Seeking SRE(SREの探求)」に記載されているプロセスを参考に収集するようにしました。
図の参照元: https://www.oreilly.com/library/view/seeking-sre/9781491978856/ch04.html
- TTD:検出時間
- TTE:エンゲージ時間(エスカレーションプロセスの時間)
- TTF:修正時間
- TTM:軽減時間(障害発生から対応が完了するまでの時間)
続いて客観的に判断するために、各障害のレベルごとにTTD、TTE、TTF、TTMの目標指標を定義しました。
表:障害レベルと各プロセスの目標指標の例
施策を取り入れた効果
ポストモーテムの実施タイミングで、発生した障害のレベルに応じて TTD、TTE、TTF、TTMが目標指標内に収まっているかを確認する ステップが追加されました。 そして未達の指標に対して改善案を深ぼるアプローチができるようになり 障害発生時間の短縮に結びつく改善に繋がりやすくなりました。
- 指標例:TTD(検出時間)が未達だった
- 改善例:メトリクスの追加とアラートについて検討する
今後の取り組みに向けて
今回紹介した施策は、時系列にまとめて事後検証を行うポストモーテムだけでは 見つけられなかった改善ポイントが、障害発生時間の内訳時間というFactを基に、 客観的に把握して品質改善ができるようになった1例だと考えています。
今回の事例だけでなく、今後もタイミーのプロダクト本部ではFactを基にした 品質の維持、向上の取り組みを大切にしていきたいと考えています。 私達の取り組みにご興味がありましたら、情報交換など気軽にご連絡下さい。
最後まで読んでいただき、ありがとうございました。