arXiv (NLP)AI
RAGシステムにおける事前学習の優位性の定量化
Quantifying Prior Dominance in RAG Systems
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Retrieval-Augmented Generation(RAG)は大規模言語モデル(LLM)を外部知識で補強する重要な技術ですが、現在の評価方法には大きな課題があります。従来の評価指標は離散的なヒューリスティクスに依存しており、「認識論的盲目性」と呼ばれる問題を抱えています。これは、外部情報からの真の文脈抽出とモデルの内部パラメータ記憶の再現を区別できないという根本的な限界を意味します。
この課題に対処するため、研究者たちはNormalized Context Utilization(NCU)メトリクスを新たに提案しました。このメトリクスは、ゼロショット、オラクル、敵対的条件という3つのシナリオにおけるトークンレベルの対数確率を利用して、文脈情報の獲得量を厳密に定量化します。1.5Bから72Bパラメータに至るまで複数のアーキテクチャと商用APIを評価した結果、興味深い発見がもたらされました。
特に注目すべき発見は、Chain-of-Thought推論を用いない厳密な事実抽出タスクでは、従来のスケーリング則が極端に減少傾向を示すという点です。驚くべきことに、小規模言語モデル(SLM)は高容量アーキテクチャと同等かそれを上回るパフォーマンスを発揮します。さらに、「Prior Dominance」(事前学習の優位性)がモデルサイズと商用調整と相関することも明らかになりました。
評価対象の商用APIは、敵対的シナリオで外部証拠を半数近く無視し、パラメータの事前学習が矛盾させられるとシステミックな信頼度低下(Negative Transfer)に頻繁に陥ることが判明しました。これらの知見は、厳密な抽出タスクにおけるSLMの構造的な認識論的優位性と優れた文脈準拠性を強調しています。