arXiv (AI)AI

ToolSense：大規模言語モデルにおけるパラメトリックツール知識を診断するフレームワーク

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

2026年6月12日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

大規模言語モデル（LLM）がエージェントとして膨大なツールカタログを扱う際、ツール検索のボトルネックが深刻な課題となっています。従来の埋め込みベースの検索手法は、コンパクトなエンコーダに依存しているため、専門化されたツール特性を十分に捉えられないという限界がありました。これに対し、パラメトリックツール検索は、各ツールをLLM語彙に追加される仮想トークンとしてエンコードし、2段階のファインチューニング（記憶化と検索SFT）を通じてLLMをリトリーバーとして機能させるアプローチが登場しました。このアプローチはToolBench検索ベンチマークで高い性能を達成していました。しかし、既存ベンチマークには重大な欠陥がありました。詳細に記述された完全な問い合わせのみを使用しており、評価時には有効なトークンパスに出力を制限する制約付きデコーディングが適用されていたため、モデルが実際にツールを理解しているかどうかが明らかにされていなかったのです。このギャップを埋めるため、研究チームはToolSenseという新しいLLMベースの診断フレームワークを開発しました。 ToolSenseは任意のツールカタログを入力として受け取り、自動的に3つのベンチマークを生成します。具体的には、曖昧性の程度が異なる3段階の問い合わせを含む現実的検索ベンチマーク（RRB）、複数選択問題による知識プローブベンチマーク、そして質問応答型プローブベンチマークです。ToolBench（約47,000個のツール）に対してToolSenseを適用し、5つのパラメトリックモデル構成を評価した結果、衝撃的な発見が得られました。RRBクエリでは、複数の構成が完全に記述されたToolBenchベンチマークと比較して約50～64ポイント低下し、埋め込みモデルベースラインを下回ってしまったのです。さらに検索性能が高い場合でも、いくつかのモデルは事実的プローブでほぼランダムなスコアを獲得しており、知識獲得と検索能力の乖離が明らかになりました。この研究成果は、パラメトリックツール検索手法の信頼性を再検討する必要性を示唆しており、GitHubで公開されているToolSenseフレームワークとToolBench診断ベンチマークを通じて、今後の改善に貢献することが期待されています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

ToolSense：大規模言語モデルにおけるパラメトリックツール知識を診断するフレームワーク

日本語要約青い用語にマウスを合わせると解説が表示されます