DevinのプロンプトをDevinに自己改善させる

こんにちは！タイミーでバックエンドのテックリードをしている新谷（@euglena1215）です。

最近、私たちのチームでは自律型 AI エージェント Devinの活用が広がっています。特に、GitHub Actionsのスケジュール実行や特定のイベントをトリガーに、定型的なタスクをDevinに任せるといった使い方を試しています。

しかし、Devinを使いこなそうとすると、多くの方がこんな課題に直面するのではないでしょうか。

「最初に作ったプロンプトでは、なかなか期待通りのアウトプットが出てこない…」

結局、何度か追加の指示を繰り返して、ようやく望む結果にたどり着く。これは「AIあるある」とも言える状況ですよね。そして、本当に大変なのはここからです。今回のやり取りで得た知見や改善点を、次回の実行のために元のプロンプトへ手動でフィードバックする作業。これが地味に面倒で、つい後回しにしてしまいがちです。

そこで私たちは、このプロンプトの改善作業自体をDevinに任せるという、面白い試みを始めました。今回はその具体的な手法と、それによって得られるメリットについてご紹介します。

面倒なプロンプト修正は、Devin自身にお任せ

Devinとの数回のラリーを経て、タスクが無事に完了したとします。ここで、Devinに次のようなプロンプトを投げかけます。

今回私が行った指摘を、次回以降はしなくて済むように、{ここにGitHub ActionsのYAMLファイルのパス} に記載しているプロンプトに変更を加えてください。

たったこれだけです。これにより、Devinは今までのやり取りをすべて学習し、人間からのフィードバックを反映した新しいプロンプトを自ら生成してくれます。

Pull Requestによる変更提案で、レビューも簡単

さらに、私たちはDevinに次の条件を追加で指示しています。

条件

変更内容は、新しいPull Requestとして作成してください。

今回のやり取りで追加した指示と、既存のプロンプトに意味的に重複する部分があれば、それらを統合してプロンプト全体を最適化してください。

この指示により、Devinはプロンプトの変更内容をまとめたPull Requestを自動で作成してくれます。

エンジニアは、そのPull RequestをレビューするだけでOKです。

新しいプロンプトでテスト: 実際に新しいプロンプトを使ってDevinにタスクを依頼し、意図通りのアウトプットが出るかを確認します。
評価とマージ:
- 改善された場合: Pull Requestをマージし、プロンプトをアップデートします。
- 変わらない・悪化した場合: マージはせず、なぜ期待通りにならなかったのかをDevinに再度フィードバックします。このサイクルを繰り返すことで、プロンプトは継続的に洗練されていきます。