arXiv (ML)AI
TITLE_JA: オフライン推論学習における重み空間の幾何学的特性
Weight-Space Geometry of Offline Reasoning Training
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデルから小規模モデルへ推論能力を蒸留する際に用いられるオフライン強化学習損失関数について、研究チームが機械的な違いを詳細に分析した。SFT、RFT、RIFT、DFT、Offline GRPO、DPOといった6つの手法を、同一の基盤モデル(Qwen3-4B)と数学的推論データセットを使用して比較することで、各手法がどのように異なる重み更新を引き起こすかを調査した。
分析には余弦類似度、主角度部分空間解析、線形モード接続性、CKA(Center Kernel Alignment)などの幾何学的手法が用いられた。興味深いことに、SFT、RFT、RIFTの3つの手法はほぼ同一方向の重み変化を示し(余弦類似度≥0.97)、GSM8Kテストセットでも同等の精度(87-88%)を達成していた。一方、DFTは同じデータを使用しながらもより大きく方向が異なり、Offline GROPOはSFT方向に対してほぼ直交する成分(グローバルで約67%、後期層では86%)を追加していた。
最も注目すべき結果はDPOで、完全に異なる部分空間に位置し、SFT方向との直交性を示しながら、GSM8Kで93.5%、AIME26で30.0%という最高精度を達成した。ただしDPOは他の手法の10倍小さい学習率を使用しており、精度差は損失関数とオプティマイザの選択の両方を反映していることから、学習率を統一した比較は今後の課題として残されている。本研究は、推論蒸留において外見上の精度差が、実は重み空間における根本的に異なる学習メカニズムに起因する可能性を示唆している。