arXiv (NLP)AI
一つのジェイルブレイクは多くの言語に通じる:多言語ジェイルブレイク検出のための言語不変意図表現の学習
One Jailbreak, Many Tongues: Learning Language-Insensitive Intention Representations for Multilingual Jailbreak Detection
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は世界中の多言語ユーザー向けアプリケーションにますます導入されていますが、安全性トレーニングは主流言語に集中したままであり、多言語能力の進展と歩調を合わせて進んでいません。この遅れが、ジェイルブレイク攻撃の脆弱性として悪用される危険性を生み出しています。現在のジェイルブレイク防御システムは主に主流言語で開発・評価されており、言語のバリエーションによる表現の分散と多言語監督データの不足によって、その効果は大きく制限されているのが現状です。
こうした課題に対処するため、研究者らは「MLJailDe」という多言語ジェイルブレイク検出フレームワークを提案しました。このフレームワークは、多言語の堅牢性とクロスリンガル汎化性の両立を目指しています。MLJailDeはまず、多言語逆翻訳データ拡張アルゴリズムを導入し、11言語にまたがる意味的に一貫性のあるデータセットを構築しました。このデータセットには、2,232個の良性サンプルと1,239個のジェイルブレイクサンプルが含まれています。
その上で、MLJailDeは相対距離制約を用いてクロスリンガル表現の分散を減らし、同じ意図を持つジェイルブレイクプロンプトが言語を超えて一貫したクラスターを形成することを促します。さらに、不均衡を考慮した分類目的関数を使用して、クラス不均衡を緩和し、より信頼性の高い多言語決定境界の学習を実現しています。実験結果では、MLJailDeは複数言語にわたって既存の最先端手法を上回る性能を示し、F1スコアで98.5%を達成し、未知言語での平均F1スコアは97.1%に達しています。これは、このアプローチが高い有効性とクロスリンガル汎化能力を持つことを強く示唆しており、多言語環境におけるLLMの安全性向上に向けた重要な進展となります。