arXiv (NLP)AI
TITLE_JA: 本番環境での実証:単一の言語モデル書き換えがスキル説明最適化に十分
A Single Rewrite Suffices: Empirical Lessons from Production Skill Description Optimization
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
エンタープライズAIエージェントが複数の専門化されたスキルへユーザークエリをルーティングする際、自然言語で書かれたスキル説明とクエリのマッチングが重要な役割を果たしています。しかし、複数のスキルの説明が重複している場合、ルーティングLLM(大規模言語モデル)は誤ったスキルにクエリを送信してしまう問題が発生します。この現象を研究チームは「スキル衝突」と呼んでいます。エージェントが数十個のスキルに拡張される中で、ルーティング精度を維持するために説明を手動で調整することは、エンジニアリングの大きなボトルネックになっていました。
本研究では、本番環境のエンタープライズグループチャットエージェント(9個のスキル、372の回帰テストケース)に対して、自動説明最適化パイプラインを導入しました。このパイプラインは平均79.2%のF1スコアを達成し、手動調整された説明の79.4%と同等の性能を実現しながら、スキルあたりのエンジニアリング工数を120分から3.8分に削減(32倍の高速化)することに成功しました。
さらに詳細な検証を通じて、パイプラインのどのコンポーネントが実際に効果を出しているかを調査しました。本番システムとToolBench(16,000個のツール)の両方でシステマティックなアブレーション研究を実施した結果、驚くべきことに、偽陽性と偽陰性のケースを使用した単一のLLM書き換えだけで、利用可能な改善のほぼすべてが得られることが判明しました。イテレーション予算、フィードバック信号の構成、混同されたペアの二重編集、学習セットサイズなど、他の設計選択肢はいずれも最終的なF1に0.5%未満の影響しか及ぼしませんでした。
本研究はスキル説明の重複に起因するスキル衝突に対処するための実用的なアプローチを提供します。ただし、複数スキルの意図された範囲が本質的に重複する場合には、テキストレベルの最適化では解決できないことも明らかにしました。研究チームは、学習セットと検証セットのF1スコアに大きな乖離がある場合にこうしたケースを特定し、テキストレベルではなくアーキテクチャレベルの対応が必要であることを示す診断指標を提案しています。