arXiv (NLP)AI
TITLE_JA: トークン境界での安全性突破:BPEトークン化がLLMのアライメントに作る悪用可能なギャップ
Breaking Safety at the Token Boundary: How BPE Tokenization Creates Exploitable Gaps in LLM Alignment
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現代の大規模言語モデル(LLM)には、人間が読んでも違和感のない微細な文字レベルの摂動を加えることで、安全性アライメントを回避できる脆弱性が存在することが、新たな研究により明らかになった。その根本的な原因は、BPE(Byte Pair Encoding)トークン化という標準的な前処理手法にあるという。
研究チームが特定した主要なメカニズムは以下の通りである。BPEトークン化は、安全性に関する重要な単語を部分単語(サブワード)に断片化してしまう。ところが、公開されている三つのアライメント訓練データセットを調査したところ、意図的に断片化された入力は全く含まれていなかった。つまり、モデルの訓練過程で、このような攻撃パターンへの対策が施されていないのである。
研究者らは、Qwen、Gemma、Llama、Mistralなど五つのモデルファミリーに対してこのメカニズムを検証した。安全性トークンの断片化を狙った最適化手法により、拒否されるべき有害なプロンプトの80~100%において最初のトークンでの拒否トリガーを無効化することに成功した。さらに問題なのは、そのうち48%が実際に有害な出力を生成したということである。活性化パッチングによる分析から、破壊される信号はモデルの後半30%程度のレイヤーに限定されていることが判明した。
防御策の評価も行われた。DPO(Direct Preference Optimization)による訓練ではこの脆弱性を完全に閉じられず、SFT(Supervised Fine-Tuning)で断片化されたプロンプトを使用した訓練は効果があるものの、無害なプロンプトまで拒否する過度な拒否をもたらす「グローバルコラプス」という新たな問題を引き起こすことが示された。