arXiv (NLP)AI
TITLE_JA: LLMの潜在思考表現を形式化する:思考表現の4つの公理
Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)がどのように内部で推論を表現しているかは、長く謎のままでした。本研究は、LLMの潜在思考表現の質を評価するための新しい公理的枠組みを提案しています。これまでの評価方法は、下流のベンチマークスコアとモデルの能力を混同してしまい、表現の質そのものを正確に測定できていませんでした。本研究が革新的な点は、ベンチマーク精度に依存しない独立した指標を定義し、表現の失敗をモデルの能力不足と区別できるようにしたことです。
研究チームは4つの関数的公理を形式化しました。因果性(Causality)、最小性(Minimality)、分離性(Separability)、安定性(Stability)です。それぞれについて定量的な指標を定義し、下流精度に関係なく表現そのものから直接計算できるようにしています。これらの公理は、潜在思考がどの程度適切に構造化されているかを評価するための基準となります。
研究者らは23の推論タスク(空間推論、事実質問応答など)にわたって、オープンウェイトのLLMを監査しました。その結果は衝撃的です。いかなるモデルも4つの公理すべてを同時に満たしていないことが判明しました。さらに、潜在表現はタスクの種類を信頼性をもって区別できますが、同じタスク内の異なる質問を区別することはできません。また、表現がエンコードする情報のほとんどは、入力埋め込みにすでに存在する情報を超えていないことが明らかになりました。
この問題は密度モデル、推論蒸留モデル、強化学習訓練モデルの全ファミリーで一貫して観察されました。つまり、このギャップはモデルサイズや訓練手順の特性ではなく、構造的な問題であることを示唆しています。この知見は、LLMの内部表現の根本的な改善が必要であることを示唆し、今後の言語モデル研究における重要な方向性を指し示しています。