arXiv (ML)AI
TITLE_JA: 大規模言語モデルにおける時間的選好概念とその機能
Temporal Preference Concepts and their Functions in a Large Language Model
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は近年、短期的な利益と長期的な結果のトレードオフを考慮した意思決定を行うために広く展開されています。しかし、これらのモデルがこうしたトレードオフをどのように内部的に表現し、解決しているかについてはほとんど明らかにされていません。本研究は、蒸留されたLLM「Qwen3-4B-Instruct-2507」において時間的選好に関わる基本的なサブグラフを因果的に特定することを目指しました。勾配ベースの属性分析と活性化パッチングからの収束的証拠を通じて、モデルの中層から上層のノードを特定しています。
研究チームは、時間地平線の幾何学的構造が期待される局所化されたレイヤーの残差ストリーム(residual stream)に符号化されていることを発見しました。行動分析の結果、介入されないLLMは人間よりも数倍穏やかに未来を割引く傾向がある一方、この選好はコンテキスト間で不安定であることが明らかになりました。これは暗黙的に訓練に頼るのではなく、明示的な制御が必要であることを示唆しています。
さらに興味深いことに、ステアリングベクトル(steering vectors)を用いることで時間的選好をシフトさせることができる可能性が示唆されています。本研究は、機械的解釈可能性(mechanistic interpretability)がLLMの計画推論能力に対する信頼性の高い制御をもたらす方法を示すものであり、これはLLMが重要な決定を行う際の透明性と安全性向上に貢献する重要な一歩となるでしょう。