arXiv (AI)AI
ToolSense:大規模言語モデルにおけるパラメトリックツール知識を診断するフレームワーク
ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)がエージェントとして膨大なツールカタログを扱う際、ツール検索のボトルネックが深刻な課題となっています。従来の埋め込みベースの検索手法は、コンパクトなエンコーダに依存しているため、専門化されたツール特性を十分に捉えられないという限界がありました。これに対し、パラメトリックツール検索は、各ツールをLLM語彙に追加される仮想トークンとしてエンコードし、2段階のファインチューニング(記憶化と検索SFT)を通じてLLMをリトリーバーとして機能させるアプローチが登場しました。このアプローチはToolBench検索ベンチマークで高い性能を達成していました。
しかし、既存ベンチマークには重大な欠陥がありました。詳細に記述された完全な問い合わせのみを使用しており、評価時には有効なトークンパスに出力を制限する制約付きデコーディングが適用されていたため、モデルが実際にツールを理解しているかどうかが明らかにされていなかったのです。このギャップを埋めるため、研究チームはToolSenseという新しいLLMベースの診断フレームワークを開発しました。
ToolSenseは任意のツールカタログを入力として受け取り、自動的に3つのベンチマークを生成します。具体的には、曖昧性の程度が異なる3段階の問い合わせを含む現実的検索ベンチマーク(RRB)、複数選択問題による知識プローブベンチマーク、そして質問応答型プローブベンチマークです。ToolBench(約47,000個のツール)に対してToolSenseを適用し、5つのパラメトリックモデル構成を評価した結果、衝撃的な発見が得られました。RRBクエリでは、複数の構成が完全に記述されたToolBenchベンチマークと比較して約50~64ポイント低下し、埋め込みモデルベースラインを下回ってしまったのです。さらに検索性能が高い場合でも、いくつかのモデルは事実的プローブでほぼランダムなスコアを獲得しており、知識獲得と検索能力の乖離が明らかになりました。この研究成果は、パラメトリックツール検索手法の信頼性を再検討する必要性を示唆しており、GitHubで公開されているToolSenseフレームワークとToolBench診断ベンチマークを通じて、今後の改善に貢献することが期待されています。