arXiv (AI)AI
TITLE_JA: 対比的反省を用いたイテレーティブプロンプト最適化
Contrastive Reflection for Iterative Prompt Optimization
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)エージェントは情報検索の中心的な役割を果たすようになっており、検索クエリの発行、回答の合成、IR評価の判定役として機能しています。これらのエージェントを制御するプロンプトの改善は最適化問題ですが、実際の情報検索の応用場面では、単なる盲目的な探索というより、むしろシステムのデバッグに近い性質を持っています。エンジニアは、どの動作が失敗したのか、どの近い動作がうまく機能したのか、その二つを区別する要因は何か、そしてプロンプトの編集が保留用のデータセットにおける品質を改善しながら回帰を導入しないかどうかを知る必要があります。
本研究は、エージェント型情報検索ワークフロー向けのイテレーティブプロンプト最適化フレームワーク「対比的反省(Contrastive Reflection)」を提案しています。このフレームワークはタスク中心の品質定義から開始され、QAエージェントが検索または推論のトレースを露出させ、採点エージェントが次元レベルのスコアと根拠を露出させます。これらの構造化されたトレースを用いて、エラーを固定する行動スライスを識別し、同じ領域から近い成功例を追加し、Teacher LLMに対象を絞ったプロンプト編集を提案させます。候補となる編集は検証性能が改善された場合のみ受け入れられ、オプションで回帰チェックが行われます。
公開されたHotpotQAの検索拡張QAセットアップでの評価により、ツリーベースのスライスセレクタを用いた対比的修復は、保留用データセットの完全一致精度を51.4%から60.4%に改善しました。失敗のみおよびランダム根拠の変種は改善が少なく、以前正しかった例を破壊する傾向があります。軽いインストラクションのみの比較では、本手法はMIPROv2(59.4%)やGEPA(57.0%)といった最先端のプロンプト最適化手法に近い性能を示しています。この研究の成果は、情報検索エージェント向けの解釈可能な最適化ループを提供し、プロンプト修復をより検査可能で検証駆動型にすることを目指しています。