arXiv (AI)AI
TITLE_JA: 残差ストリームをレイヤーではなくトークンに制限しない理由:連続潜在推論のための永続メモリ
Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は数学問題や多段階計画タスクにおいて優れた推論能力を示してきました。CoCoNuT(Chain of Continuous Thought)パラダイムは、単一の推論チェーンに早期に決定するのではなく、複数の推論パスを同時に探索する潜在空間推論を可能にすることで、この能力をさらに拡張しています。
しかし研究者たちは、「概念ボトルネック」と呼ぶ重大な制限を発見しました。各推論パスで中間の隠れ状態が上書きされるため、推論の深さが増すにつれ、モデルは以前のステップで計算された重要な事実を失ってしまうのです。この問題は実験的に確認されており、HotpotQAではバニラCoCoNuT(10.4% EM)がCoTベースライン(11.0% EM)を改善できず、GSM8Kではカリキュラム深度が増加するにつれてパフォーマンスが低下しています。
これに対処するため、研究者らはAGCLR(Adaptive Gated Continuous Latent Reasoning)を提案しました。これはCoCoNuTを「ゲート概念ストリーム」で拡張したもので、すべての推論パスに渡って維持される永続的な残差メモリです。このメモリは3つの学習可能なゲートによって制御されます。中間的な事実をメモリにコミットする「ライトゲート」、関連する以前の状態を取得する「リードゲート」、不要なコンテキストを削除する「忘却ゲート」です。
GPT-2をベースモデルとして、GSM8K、HotpotQA、ProsQAで評価された結果、AGCLRはすべてのタイプのデータセットにおいて一貫した改善を達成しました。カリキュラム深度が増加するにつれてパフォーマンスギャップが複合的に増大し、概念ボトルネック問題を直接的に解決しています。