arXiv (ML)AI
TITLE_JA: 言語モデルのアライメントアルゴリズムに関する機械的解析
Mechanistic Analysis of Alignment Algorithms in Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
言語モデルの安全性と望ましい挙動を確保するためのアライメント手法は、通常ブラックボックスとして評価されており、これらの手法がモデルの内部計算をどのように変形させるかは明らかになっていません。本研究は、PPO、DPO、SimPO、ORPO、GRPO、KTOの6つの選好最適化手法を、3つのオープンウェイトモデルファミリーにわたって体系的に機械的解析しました。
研究では層ごとの線形プロービング、スパースオートエンコーダ、クロスコーダを統合することで、選好表現の位置を特定し、潜在空間におけるアライメントが引き起こす幾何学的変形を定量化しました。分析の結果、選好信号は一貫して初期中盤層または中盤後期層に集中することが判明しました。しかし異なる最適化目的は、質的に異なる表現シフトを誘発します。KTOとGRPOは建設的特徴共有と疎で高い顕著性の採用を通じて線形分離可能性を向上させます。一方、DPOとORPOは非建設的な幾何学的回転と特徴減衰を通じて分離可能性を低下させ、PPOとSimPOはベースライン幾何を大きく保持します。
これらの変形はアーキテクチャに依存する変動性を示し、振る舞いのアライメントが内部構造の均一な再構築を意味しないことを示唆しています。本研究の知見は、アライメントを異種の介入として確立し、安全性と解釈可能性のための標準化された特徴レベル監査を動機付け、メカニズム認識最適化目的の必要性を浮き彫りにしています。