arXiv (ML)AI
埋め込みモデルルーティングにおけるポリシー後悔:低ランク専門家を持つ文脈的バンディット
Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現代的なレコメンデーションシステムは、多様なクエリを複数の埋め込みモデルへ動的にルーティングすることに依存しており、その実用的な重要性は高まっている。しかし、敵対的なクエリ、バンディットフィードバック、モデルの可観測性の制限といった現実的な条件下では、この問題は十分に理解されていない。本研究では、埋め込みモデルルーティングを敵対的な文脈線形バンディット問題として形式化し、低ランク専門家を導入する。ここでコンテキストはクエリ、アクションはアイテム、専門家は低ランク潜在表現空間で動作する埋め込みモデルである。
研究チームは、標準的な後悔概念が構造的な仕様外れや統計的な困難に陥ることを示し、クエリ依存のモデルルーティングを捉えるのに十分な表現力を持ちながらも、効率的なオンライン学習を可能にする対数二次のポリシークラスを特定した。さらに、Hypentropy Policy Gradient(HPG)と呼ばれるポリシー勾配アルゴリズムを提案した。このアルゴリズムは不完全な情報の下で未知の低ランク構造に適応し、$\tilde{\mathcal O}(s\sqrt{MT})$の線形化ポリシー後悔を達成する。ここで$s$は専門家の本質的ランク、$M$はモデル数、$T$はラウンド数である。これにより次元性の呪いを回避している。
本研究の最大の貢献は、計算効率的かつパラメータフリーなHPGの実装を提供し、理論的な保証と実用性を両立させた点にある。低ランク構造の活用により、複雑で高次元なモデルルーティング問題を扱う際の計算複雑性を大幅に削減でき、実際のレコメンデーションシステムへの応用が期待される。