はじめに
こんにちは。タイミーのデータアナリティクス部でデータアナリストをしているishidaです。普段は、タイミーのプロダクトに関する分析業務に従事しています。
タイミーのデータアナリスト(DA)チームでは、プロダクト施策の効果検証としてABテストを頻繁に実施しています。ABテストの業務は、大きく「実験設計」「クエリ作成」「可視化・レポート」の3工程に分かれますが、これらすべてをDAが担当しています。
施策の数が増えるにつれ、ABテストの “回転数” がボトルネックになりつつありました。そこで私たちは Claude / Cursor を活用し、まず実験設計のレビューを自動化する取り組みを始めました。
本記事では、その仕組みと設計思想をご紹介します。
なお、タイミーにおけるABテストは「① 実験設計 → ② クエリ作成 → ③ 可視化・レポート」の3ステップで進みます。本記事で扱うのは、①の実験設計レビューの自動化です。
1. 実験設計レビューの自動化
課題:レビューの属人化
ABテストの実験設計にはいくつかの重要なチェックポイントがあります。
| チェックポイント | 確認内容 |
|---|---|
| SUTVA | TG/CG間でリソースの奪い合いが起きないか |
| Unit Alignment | ランダマイズ単位とメトリクス集計単位は一致しているか |
| SRM | サンプル比率のミスマッチを検知できる設計か |
| Novelty/Primacy | 経時的変化を考慮した期間設定か |
| Multiple Testing | 多重比較の問題を制御できているか |
| Guardrail | 副作用を監視するガードレール指標は定義されているか |
これらのレビューは経験や前提知識によって見落としが生じやすく、属人化しがちでした。
解決策:AIによるチェックリストレビュー
私たちは、実験設計チェックリストを Claude / Cursor のコンテキストに含め、実験設計ドキュメントを入力するとチェックポイントごとにレビューが返るようにしました。
具体的には、以下の2種類のファイルをプロジェクトのルールとして設定し、AIに読み込ませています。
- 実験設計ドキュメントのテンプレート: テスト概要・テスト設計・評価指標などの項目が定義されたMarkdown
- チェックポイント定義: 6つの観点それぞれについて「判定の観点」「よくある違反例」「対応方針」を構造化したドキュメント
AIレビューの出力イメージ
## CP1: SUTVA ⚠️ リスクあり -TG/CG間でリソースの奪い合いが発生する可能性があります -推奨: クラスタ単位でのランダマイズを検討してください ## CP2: Unit Alignment ✅ 問題なし -ランダマイズ単位と集計単位が一致しています ## CP3: SRM ✅ 設計済み -Debugging Metric として介入の影響を受けない指標を設定 -カイ二乗検定を実験開始時に実行する設計 ...
ポイント:AIレビューは「最低限の品質保証」として位置づける
重要なのは、AIレビューを 人間のレビューの代替 としてではなく、最低限実行されるべきレビュー として位置づけていることです。
- AIレビュー = チェックリストの網羅的な確認(漏れ防止)
- 人間レビュー = ビジネスコンテキストを踏まえた判断(例:この施策ならSUTVA違反は許容範囲か)
これにより、レビュー依頼を受けたDAは「AIが見つけた問題点」を起点に議論できます。
学び
AIレビューは「ゲートキーパー」ではなく「下書き」
AIレビューの結果を鵜呑みにせず、「少なくともこのレベルのレビューは済んでいる」という 品質の下限保証 として使っています。最終判断は必ず人間が行います。
この位置づけにしたことで、「AIに任せて大丈夫か」という心理的なハードルも下がります。
We’re Hiring!
私たちは、ともに働くメンバーを募集しています!!
カジュアル面談も行っていますので、少しでも興味がありましたら、気軽にご連絡ください。