arXiv (NLP)AI
TITLE_JA: RepSelect:表現選択性を用いた堅牢なLLM忘却
RepSelect: Robust LLM Unlearning via Representation Selectivity
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)に対して、特定の知識や価値観を深く忘却させつつ、一般的な能力を維持することは、機械学習の忘却(アンラーニング)分野における中心的な課題となっています。しかし既存の手法には重大な弱点があり、ファインチューニングやフューショットプロンプティングによって容易に逆転されてしまい、その忘却は表面的なものに過ぎないことが明らかになっています。
この問題の根本原因は、既存手法が保持すべき情報と攻撃者によって復元可能な部分空間の両方に共有される表現をターゲットにしているため、一般的能力を損なわせると同時に逆転攻撃に対して脆弱になっているという点にあります。これに対して、研究チームはRepSelect(表現選択性)という新しい手法を提案しました。この手法は、各更新前に重み勾配の主成分を選別することで、忘却対象データセット固有の表現を分離します。これにより、一般的能力を保ちながらもファインチューニングによる復元を制限することが可能になります。
評価実験では、バイオハザード知識と有害な傾向という2つの忘却カテゴリを対象に、Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Liteといった複数のモデルアーキテクチャ(密結合およびMixture-of-Experts)で検証されました。GradDiff、NPO、SimNPO、RMU、UNDIALといった5つの主流手法と比較した結果、RepSelectは再学習後の回答精度を4~50倍大きく削減し、フューショットプロンプティング攻撃に対してほぼ完璧な堅牢性を示しました。選択的表現をターゲットにすることが、LLMの深い忘却と堅牢な忘却の実現に向けた重要なステップであることが示唆されています。