arXiv (AI)AI
TITLE_JA: 推論から真実を探索する:LLMの軌跡を操舵する動的表現編集フレームワーク
Search for Truth from Reasoning: A Dynamic Representation Editing Framework for Steering LLM Trajectories
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の推論能力を向上させるための従来のアプローチは、Chain-of-ThoughtやWaitプロンプトなど、モデルにより多く考えさせることを促す手法が主流でした。しかし、これらの方法は必ずしも正しい答え(Truth)へ導くことに成功していません。一方、表現編集(Representation Editing、RepE)は内部的な制御を提供しますが、動的な推論過程への応用は十分に探究されていませんでした。
この研究では、推論チェーンが展開される過程での真実の幾何学的性質を調査することで、この課題に取り組んでいます。研究チームは3つの重要な知見を発見しました。まず、真実は文レベルでエンコードされ、潜在的な推論パターンと絡み合っていることです。次に、効果的な介入は不確実性原理と減衰効果に従い、初期段階の高エントロピー(不確実性が高い)な分岐点への局在化が必要であることです。さらに、素朴なステアリングベクトルはノイズの影響を受けやすく、正しい推論軌跡に悪影響を及ぼすリスクがあります。
これらの知見に基づいて、研究チームは「DynaSteer」という動的RepEフレームワークを提案しています。DynaSteerはパターンクラスタリングを使用して推論の多様体を分離し、Fisher-LDAを活用して精製された真実を投影します。先読みエントロピーを動的に監視することで、必要な時のみ選択的に軌跡を操舵またはロールバックします。MATH ベンチマークを含むいくつかのタスクでの包括的な実験結果により、DynaSteerの有効性が検証され、ドメイン外のコーディングタスクでの実験も優れた汎化能力を確認しています。