Timee Product Team Blog

タイミー開発者ブログ

障害発生時間をFactから改善する取り組みをアップデートした話

こんにちは、CTO室グループでQAスペシャリストを担っている依光です。

今年を振り返ってという視点から、施策として動き始めた「障害対応をFactから改善する取り組み」について紹介させてください。

今までの取り組みと課題

タイミーのプロダクト部ではFour Keysを活用して改善サイクルに取り組んでおり、 プロダクトの品質を改善するという側面から「変更失敗率」と「サービス復元時間」を 計測しています。 この「サービス復元時間」を短縮するに当たり、障害を時系列にまとめて事後検証として 振り返るポストモーテムだけでは、改善するポイントを客観的に判断することが難しい という課題がありました。

取り入れた施策

障害発生の時間を短縮するために発生時間の内訳を計測して、客観的に判断するようにしました。 まず計測する際に時間を分解する切り口は、O'Reilly社から出版されている「Seeking SRE(SREの探求)」に記載されているプロセスを参考に収集するようにしました。

図の参照元https://www.oreilly.com/library/view/seeking-sre/9781491978856/ch04.html

  • TTD:検出時間
  • TTE:エンゲージ時間(エスカレーションプロセスの時間)
  • TTF:修正時間
  • TTM:軽減時間(障害発生から対応が完了するまでの時間)

続いて客観的に判断するために、各障害のレベルごとにTTD、TTE、TTF、TTMの目標指標を定義しました。

表:障害レベルと各プロセスの目標指標の例

施策を取り入れた効果

ポストモーテムの実施タイミングで、発生した障害のレベルに応じて TTD、TTE、TTF、TTMが目標指標内に収まっているかを確認する ステップが追加されました。 そして未達の指標に対して改善案を深ぼるアプローチができるようになり 障害発生時間の短縮に結びつく改善に繋がりやすくなりました。

  • 指標例:TTD(検出時間)が未達だった
  • 改善例:メトリクスの追加とアラートについて検討する

今後の取り組みに向けて

今回紹介した施策は、時系列にまとめて事後検証を行うポストモーテムだけでは 見つけられなかった改善ポイントが、障害発生時間の内訳時間というFactを基に、 客観的に把握して品質改善ができるようになった1例だと考えています。

今回の事例だけでなく、今後もタイミーのプロダクト本部ではFactを基にした 品質の維持、向上の取り組みを大切にしていきたいと考えています。 私達の取り組みにご興味がありましたら、情報交換など気軽にご連絡下さい。

最後まで読んでいただき、ありがとうございました。