arXiv (AI)AI
Dr-DCI:動的ワークスペース拡張による大規模コーパスへの直接アクセスのスケーリング
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模なテキストコーパスを検索する際、従来のエージェント型検索システムはBM25やColBERTといったレトリーバー(検索器)に依存してきました。これらのインターフェースは関連文書のランキングには優れているものの、得られた結果は順序付けされた形式か限定された文書ビューに限定され、複数文書にまたがる検索や制約条件の検証、情報の再編成といった柔軟な操作ができませんでした。
Direct Corpus Interaction(DCI)はこの制限を解決するアプローチで、シェル実行可能なコーパス操作を公開することで、柔軟な検索、フィルタリング、比較、検証を可能にします。しかし、コーパスが大規模化するにつれて全コーパスへの直接的なターミナルコマンドは遅延や不安定性が増し、パフォーマンスと効率が低下するという課題がありました。
研究チームが提案したDR-DCIは、レトリーバー誘導型のDCIフレームワークで、検索機能をエージェントが呼び出せるアクション(動作)として扱い、ローカルワークスペースを動的に拡張する設計になっています。全コーパスに直接アクセスするのではなく、エージェントが関連文書を必要に応じてワークスペースに取り込み、その中でDCI操作を実行します。このアプローチはレトリーバーレベルの再現率とDCI的な精密性を組み合わせ、検索によって探索のスケーラビリティを保ちながら、局所的な操作による効率的な証拠解決を可能にしています。
実験結果によると、DR-DCIはBrowsecomp-Plusテストセットで71.2%の精度を達成し、基本的なDCIやその変種より最大8.3ポイント上回りながらツール使用回数、処理時間、推定コストを削減しました。ワークスペース保存型のコンテキストリセットを使用すると精度は73.3%へ向上します。さらに100万から1000万文書規模でのスケーリング実験では、DR-DCIは安定性を保つ一方、基本的なDCIは不安定化し、BM25は著しくパフォーマンスが低下しました。