arXiv (Game Theory & AI)AI
TITLE_JA: 報酬学習における表現性と合理化可能性のトレードオフ
The Representation-Rationalizability Tradeoff in Reward Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
強化学習からの人間フィードバック(RLHF)は、大規模言語モデルの出力を人間の価値観に合わせるための重要な手法として広く採用されています。従来のRLHFでは、プロンプトに対して複数の候補応答が提示され、アノテーターがペアワイズで応答の優劣を判断します。この多数の異なるアノテーターによる評価を統合し、各応答の品質を単一のスカラー値である報酬$r(x,y)$に変換することが学習の目標です。しかし古典的な社会選択理論が示唆するように、アノテーターごとの異なる選好がコンドルセパラドックス(循環的な全体選好)を生み出す可能性があり、理論上はすべての比較を一貫して評価できるスカラー報酬は存在しません。
近年のRLHF研究では、この問題を社会選択問題として分析する文献が増えています。ただし従来はプロンプトごとに固定された有限の応答集合を前提としていました。一方、現代のパイプラインではスカラーヘッドの前に学習された表現$\phi(x,y)$を通じて応答をスコア化する手法が採用されています。この埋め込み層の導入により、社会選択理論の不可能性は実質的なトレードオフへと変化します。本研究では、$\phi$上に構築された報酬のクロスエントロピー損失がどのように分解されるかを厳密に示しています。より豊かな$\phi$は表現的項を縮小させますが、同時に報酬が一貫してランク付けできない比較をより多く露出させることで、集約項を拡大させます。この分析は直接選好最適化(DPO)にも拡張でき、埋め込みと報酬を同時に学習しても、このトレードオフの最適点の回復を保証できないことが示されています。合成データと実際の選好データセットでの実験がこれらの理論的結果を支持しています。