arXiv (ML)AI
大規模言語モデルの繰り返しループは1つのニューロン編集で修正できるか?
Can Editing 1 Neuron Fix Repetition Loops in LLMs?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)であるGemma 4命令調整モデルにおいて、長い事実列挙プロンプト(テレビシリーズのすべてのエピソード、88個のIAU星座、または151匹のオリジナルポケモンのリストなど)に対して、繰り返しループが発生するという再現可能な障害が報告されている。モデルは逐語的なループまたは単一の答えに収束してしまうリストに陥り、この現象は95%という高い確率で発生し、プロンプトの言い換えや推論エンジンの変更、ほとんどのサンプリング調整を通じても持続するという問題がある。
研究者らはこの行動が局所化されるほど十分であるかを検証するため、重みの編集による除去を試みた。原因の位置特定のため、層ごとのアブレーションとニューロン単位の属性分析を使用し、完全生成スイープで最有力候補を確認した。その結果、ループは小さなMLPニューロンセット(26B-A4Bの混合エキスパート(MoE)モデルでは数個のルーティング済みエキスパート)に限定されることが判明した。これらの「手術」は単一の符号反転ニューロン(E2Bモデル)と同程度の小規模な編集で実行でき、モデルスケールの拡大に伴い有効編集のサイズは増加するものの、すべてのケースで一般的なベンチマークスコアを維持しながら通常の生成予算内でループパターンに対応できることが示された。
しかし、これらの編集がすべてを解決するわけではない。より長い思考予算を用いた場合、特に大規模な2つのモデルは「ドゥームループ」に陥り、モデルが想起できない事実について繰り返し自己修正をしながら円をなす非収束状態に入り、予算を枯渇させたまま最終的な答えに至らないという現象が観察されている。同じ編集によってこの残存する障害は減少するが完全には排除されず、本質的には除去可能な回路ではなく知識精度の問題であると考えられる。重み編集はループを削除できるが、欠落している事実を供給することはできないということが明らかになったのである。