はじめに
こんにちは、株式会社タイミーでデータサイエンティストをしている藤井です。
普段は推薦システムの改善を担当しています。
早速ですが、皆さんは推薦モデルの改善実験を月に何本回せていますか?
仮説を立てて、実装し、実験し、結果を整理し、次を考える。
1サイクル回すだけでも、相応の負荷がかかります。片手間でサイクル数を増やすのは簡単ではありません。
しかし、もし「仮説を立てる」から「結果を整理する」までを AI が担えるとしたら?
実際に AI の案から改善が生まれています。しかも、人間が担うのは方針の選択、コードレビュー、実験の実行に絞れています。
では、実際にどれだけ回せて、どれだけ当たるのか?
人間が思いつかない切り口は出てくるのか?
私たちはそれを確かめるために、Claude Code の Skill 機能を使った半自動の実験プロセスを組み、実際に回してみましたので、紹介したいと思います。
先に結論
AI が出した改善案は 13件で、そのうち実験まで進めたのは 8件でした。
改善が確認できたのは 3件、横ばいが 2件、下落が 3件です。
打率だけを見ると突出して高いわけではありません。
ただ、人間が手を動かしたのは方針の選択、コードレビューと実験の実行だけで、それ以外は AI が担っています。通常業務と並行しながら、このサイクル数を回せたこと自体が、この取り組みのいちばんの成果でした。
モデル改善は 1回ごとの改善幅だけでなく、試行回数を増やせるかどうかが効いてくる領域です。
片手間で回せる仕組みがあれば、改善の累積速度が変わります。
解決したかった課題
AI に推薦モデルの改善案を聞くだけなら、チャットでもできます。
しかし、それを継続的な実験プロセスとして回そうとすると、運用上のボトルネックがいくつか出てきます。
長期記憶がない
セッションが切れるたびに AI は過去の実験を忘れます。
同じ失敗を繰り返すリスクがあるだけでなく、過去の失敗を踏まえて次の方向を絞る、改善が出た方向を深掘りするといった、蓄積を活かした提案ができません。
コンテキストの無駄遣い
毎回生のログや大量のファイルを読ませると、トークンを消費するだけで、期待したほど精度も上がりません。
必要な情報を構造化して渡す仕組みがないと、コストだけが膨らみます。
これらを解決するために、Claude Code の Skill 機能を使って半自動の実験プロセスを組みました。
Skill と記憶の設計
このプロセスには 2種類の記憶があります。
knowledge(長期記憶)
過去の実験記録を構造化した Markdown ファイルとして蓄積するフォルダです。
各 Skill はここを読み、過去の試行を把握した状態から動きます。
実験結果はサマリとして圧縮されて書き戻されるので、サイクルを重ねてもトークン消費が膨らみにくい設計です。
scratch(作業記憶)
サイクル途中の方針メモや実装の下書きなど、一時的な情報を置く場所です。
長期記憶に残すほどではないが、セッション内では参照したい情報がここに入ります。
また、AI のコンテキストウィンドウが圧縮された場合でも、ファイルとして残っていれば再読み込みで復元できるため、意図しないコンテキスト消失への備えにもなっています。
Skill
Skill 自体には、参照すべきファイルパスやテーブル定義、コーディングルールに加えて、実験コストの前提、安全性チェックの観点、実装原則、過去実験との重複を避けるための自問自答リストなどを埋め込んでいます。
これにより、毎回ゼロから指示しなくても、各フェーズで必要な文脈と制約が揃った状態で AI が動けます。
また、長期記憶と作業記憶はリポジトリ上に存在するため、Cursor など別の AI ツールからも同じ情報を参照でき、Claude Code の提案を独立に検証することも可能です。
半自動実験プロセスの仕組み
このプロセスは、上記の Skill と記憶の仕組みを使って構築しています。
1サイクルの流れ
- AI がテーブル定義やコーディングルールを確認する
- AI が過去の実験記録を読み、現状を把握する
- AI が次に試す改善案を複数提案する
- 人間が方針を選ぶ
- AI が実装する
- AI が変更の安全性を確認する
- AI が実施予定の内容を記録する
- 人間が実験を実行する
- AI が結果を記録に反映する
人間が手を動かすのは、方針の選択、コードレビュー、実験の実行だけです。
定義の確認、過去実験の整理、提案、実装、安全性チェック、記録は主に AI が担います。
実験結果
個別の実験内容の詳細は割愛し、ここでは改善幅の傾向のみを共有します。
13件の提案のうち、実験に進めなかった 5件を除いた 8件の結果です。
| 実験 | 主要な機械学習指標の改善幅(複数指標の範囲) |
|---|---|
| A | +2〜+7% |
| B | +0.5〜+3% |
| C | +1〜+3% |
| D | ±2%以内 |
| E | ±2%以内 |
| F | -3〜-7% |
| G | -3〜-6% |
| H | -35〜-20% |
学び
以下はあくまで運用を通じた感想であり、厳密に検証された結論ではありません。
提案の方向性
- 変更が小さくなりがちな傾向がある。 AI に自走させると、実験結果の正確性を担保しやすい方向、つまり対照実験がしやすい最小限の変更に寄りやすい傾向がありました。
- 指示を入れると質が変わる。 「小さい改善ではなく構造ごと変える改善を考えてほしい」と明示的に伝えたところ、論文の知識を参照した鋭い提案が複数出てきました。AI の提案の質は、渡す制約や方向付けに強く依存します。
- 既存手法の非自明な応用が出てくる。 たとえば、DIN(Deep Interest Network)の target-aware attention を two-tower モデルに持ち込む提案がありました。two-tower では推論時に候補アイテムが不明なためそのまま適用できませんが、AI は「学習時だけ正例を attention query として使い、推論時はフォールバックする」という変形を考えました。この切り口自体、推薦チーム内では出ていなかったもので私たちには非自明でした。当然、学習と推論の不一致(train-serve skew)がリスクになりますが、提案自体にそのリスクと失敗した場合に何がわかるかが含まれていました。成功の保証はなく、失敗する可能性は高そうですが、失敗しても学びが得られる実験設計になっています。また、仮にこの方式がそのまま機能しなくても、事前学習フェーズでのみ target-aware に学習させるといった派生が考えられ、アイデアの種として意味のある提案でした。
- 壁打ち相手としては十分実用的だった。 厳密な比較をしたわけではありませんが、少なくとも今回の運用では、AI が出す提案は人間の壁打ち相手として十分実用的だと感じました。場面によっては、自分たちだけではすぐに出なかった切り口が出てくることもありました。
蓄積と学習
- 最も鋭い提案は最後に出てきた。 偶然の可能性はありますが、サイクルを重ねて過去実験の蓄積が増えたタイミングで、最も構造的な提案が出ています。蓄積が提案の質に寄与している可能性は否定できません。
- 過去の失敗を踏まえた推論が出てくる。 AI が提案を出す際に、「過去にこの実験は失敗したので、こういう可能性がある。だからこちらの方向を試してみましょう」といった推論のログを出してくることがよくありました。蓄積された記憶を参照しながら提案理由を組み立てている様子が見て取れます。
運用コスト
- 人間の作業時間の大半はバグ対応。 実験が問題なく動く回では、人間の仕事は方針を選び、コードをレビューし、実験を実行することに絞られます。一方でバグが出ると調査・修正・再実行に手を取られ、体感で人間の作業時間の 8〜9割はバグ起因でした。逆にいえば、バグが出た回を無理に立て直さず次の実験に進めば、手数自体はさらに増やせる可能性があります。実装にバグが出た実験案も、提案自体は knowledge に記録しておけば、AI のコーディング能力が向上した時点で低コストに再挑戦できます。
現時点でまだ分かっていないこと
- サンプルサイズが不足している。 この半自動改善プロセスを運用し始めたのは最近であり、実験数は 8 件です。ここから得られた傾向が一般化できるかは、まだわかりません。
- 長期記憶の効果は未検証。 長期記憶なしのフローと比較した実験は行っていません。蓄積が提案の質に寄与している可能性は示唆されますが、長期記憶が本当に効いているのか、それとも同じ品質の提案が記憶なしでも出るのかは、現時点では検証できていません。
まとめ
このプロセスの価値は、AI が良い改善案を出すことそのものではなく、試行の回転数を上げられることにあります。
13件の提案から 8件を実験し、3件の改善を得る。個々の実験の改善幅は小さくても、改善を積み重ねれば累積的な効果は大きくなります。
つまり、モデル改善は打率ではなく打席数が効いてくる可能性が高い。この取り組みの価値は、試行錯誤を片手間でも継続して回せるようになる点にあります。
長期記憶の効果や AI の提案精度については、まだ言い切れることは多くありません。
ただ、少なくとも「AI に改善案を出させて回す」というサイクル自体は、実用的に機能しています。今後はサンプルを増やしながら、このプロセス自体の改善も続けていきます。
こうした推薦改善の試行錯誤や、評価・運用の仕組みづくりに興味がある方は、ぜひ以下もご覧ください。
We’re hiring!
現在、タイミーではデータサイエンスやエンジニアリングの分野で、共に成長し、革新を推し進めてくれる新たなチームメンバーを積極的に探しています!
また、気軽な雰囲気でのカジュアル面談も随時行っておりますので、ぜひお気軽にエントリーしてください。↓
Reference
Skillを作成するにあたっては、Y Combinator の Garry Tan さんによる gstack リポジトリ(MITライセンス)を大いに参考にしました。
なお、本記事を書いている途中に、AI に継続的に作業させる方向の動きがいくつか出ていました。今回の取り組みと直接の関係はありませんが、同じ方向性の事例としてメモ的に置いておきます。
- Automated Alignment Researchers: Using large language models to scale scalable oversight(Anthropic, 2026/04/14)― 9 体の Claude Opus 4.6 を自律的なアライメント研究者として走らせた実験。複数 AI に役割分担させて探索を回す、という方向の一例。
- Introducing routines in Claude Code(Anthropic, 2026/04/14)― Claude Code にスケジュール実行や webhook トリガーで動かせる routines が追加。今回は Skill で手動起動していますが、こうした仕組みに載せれば定期的な提案・記録反映まで自動化できそうです。


