arXiv (NLP)AI
TITLE_JA: 完璧な検出、失敗する制御:言語モデルにおける「知る」ことと「操る」ことの幾何学的乖離
Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
機械的解釈可能性(mechanistic interpretability)の中心的な目標は、モデルの制御可能性にあります。もし行動がモデルの活性化(activations)のどこに表現されているかを知ることができれば、それを修正できるはずだという考え方です。しかし、この仮定には隠れた前提があります。それは、ある行動を検出する方向と、それを実際に引き起こす方向が同じか、少なくとも近いであろうという前提です。本研究では、この仮説を幾何学的に検証しています。行動を最も良く検出する方向と、それを最も効果的に引き起こす方向の間の角度はどれほどあるのでしょうか。
Gemma 2-2B-itモデルを用いた実験では、出力形式(きれいなJSON形式 vs マークダウン囲み)の場合、検出と制御の両方の役割が単一の軸に収束しました。しかし幻覚(hallucination)生成の場合は異なります。モデルは偽の実体を完璧な線形分離可能性で検出できます(層5からのAUC = 1.000)。ところが、その検出方向は、拒否反応を生成する方向とコサイン値0.12(約83度)の角度にあり、「検出が制御を意味する」というコサイン値1に遠く及びません。活性化から構築されたディテクターも、選択されたトークンなしに、同様に整合性を欠きます(cos = -0.06)。
この乖離は複数のモデルで一般化されます。3つのファミリーから4つのモデルと2つのスケール(1B~9B)全体で、コサイン値は0.12~0.20の範囲に留まり、命令チューニング前後で同一です(0.1197 vs 0.1200)。これは、この現象の起源が事前学習(pretraining)にあることを示唆しています。拒否反応の方向へ15度回転させることで部分的に埋められ、保留された2つの偽実体カテゴリーで73%と60%の拒否率を達成できました。重要な発見として、このコサイン値が制御可能性を予測するかどうかを調べたところ、予測しないことがわかりました。検出は単一の方向ではなく高次元のクラスであり、制御可能なケースを区別するのは機能的な特性であって、静的な角度からは読み取れない性質だからです。