arXiv (CV)AI
DocArena:生のドキュメントを文書検索エージェント向けの制御可能な訓練環境に変換する
DocArena: Turning Raw Documents into Controllable Training Environments for Document Search Agents
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
近年、質問・回答・証拠のタプルを用いた強化学習によって検索エージェントを訓練する手法が注目を集めています。これらのタプルは訓練環境として機能し、エージェントが習得できる検索戦略と汎化能力を直接的に左右する重要な要素です。従来の研究では訓練データの品質向上に成果を上げてきたものの、既存の環境は主にテキストベースに留まり、マルチモーダルデータに対応した制御可能でスケーラブルな訓練環境の構築には課題が残されていました。
こうした背景から、研究チームはDocArenaという自動化されたデータキュレーションパイプラインを提案しました。マルチモーダル文書検索と質問応答の実務的なニーズに基づくもので、人間による注釈なしで生の文書コレクションを検索エージェント向けの訓練環境に変換します。パイプラインはまず、MLLM(マルチモーダル大規模言語モデル)ベースの視覚知覚を通じて文書を構造化・インデックス化し、その後ページ間の情報分布を分析・活用して推論集約型のQAペアを構築するとともに、MLLMを用いたカスケード型品質保証を実行します。
研究チームはDocArena-79Kとして、16の分野と49の言語にまたがる8,336文書から得られたQAペアを導入しました。さらに、視覚知覚とポリシーモデルを分離するDoc-Searchエージェントインフラストラクチャを設計し、テキストベースのLLMをマルチモーダル文書検索とQAの推論バックボーンとして機能させています。ポリシーモデルのみが異なる統一評価フレームワークの下で、6つのマルチモーダル文書シナリオと7つのテキストベースQAベンチマークでの実験を実施した結果、DocArenaデータで訓練されたエージェントは検索精度とQA品質の両方で最高の性能を達成しました。エージェントの検索行動に関する詳細な分析により、構築した訓練環境の有効性と制御可能性が確認されています。