arXiv (AI)AI

Dr-DCI：動的ワークスペース拡張による大規模コーパスへの直接アクセスのスケーリング

Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

2026年6月16日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

大規模なテキストコーパスを検索する際、従来のエージェント型検索システムはBM25やColBERTといったレトリーバー（検索器）に依存してきました。これらのインターフェースは関連文書のランキングには優れているものの、得られた結果は順序付けされた形式か限定された文書ビューに限定され、複数文書にまたがる検索や制約条件の検証、情報の再編成といった柔軟な操作ができませんでした。 Direct Corpus Interaction（DCI）はこの制限を解決するアプローチで、シェル実行可能なコーパス操作を公開することで、柔軟な検索、フィルタリング、比較、検証を可能にします。しかし、コーパスが大規模化するにつれて全コーパスへの直接的なターミナルコマンドは遅延や不安定性が増し、パフォーマンスと効率が低下するという課題がありました。研究チームが提案したDR-DCIは、レトリーバー誘導型のDCIフレームワークで、検索機能をエージェントが呼び出せるアクション（動作）として扱い、ローカルワークスペースを動的に拡張する設計になっています。全コーパスに直接アクセスするのではなく、エージェントが関連文書を必要に応じてワークスペースに取り込み、その中でDCI操作を実行します。このアプローチはレトリーバーレベルの再現率とDCI的な精密性を組み合わせ、検索によって探索のスケーラビリティを保ちながら、局所的な操作による効率的な証拠解決を可能にしています。実験結果によると、DR-DCIはBrowsecomp-Plusテストセットで71.2％の精度を達成し、基本的なDCIやその変種より最大8.3ポイント上回りながらツール使用回数、処理時間、推定コストを削減しました。ワークスペース保存型のコンテキストリセットを使用すると精度は73.3％へ向上します。さらに100万から1000万文書規模でのスケーリング実験では、DR-DCIは安定性を保つ一方、基本的なDCIは不安定化し、BM25は著しくパフォーマンスが低下しました。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

Dr-DCI：動的ワークスペース拡張による大規模コーパスへの直接アクセスのスケーリング

日本語要約青い用語にマウスを合わせると解説が表示されます