arXiv (AI)AI
TITLE_JA: SafeGene:転移可能な安全性アライメントのための再利用可能なアダプター
SafeGene: Reusable Adapters for Transferable Safety Alignment
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
オープンウェイトの大規模言語モデル(LLM)は、ユーザーの要求に応じてカスタマイズされたアシスタントへと細かくチューニングされる傾向が強まっています。しかし、この下流のファインチューニング過程において、モデルの安全性アライメントが弱まり、訓練データが意図的に有害でなかったとしても、悪意のあるプロンプトに対する脆弱性が増してしまうという問題が生じます。ターゲットモデルが新しいタスクデータやユーザーインタラクションで繰り返し更新されるにつれて、この安全性回復問題は継続的に発生することになります。
こうした課題に対処するため、研究チームはSafeGeneという再利用可能な安全性アダプターモジュールを提案しました。このアプローチの大きな特徴は、安全性の回復を単なるモデル固有の修復ステップとして扱うのではなく、安全性能力を独立した再利用可能なアダプター表現として扱う点です。この表現は、アライメント済みモデルと安全性が低下したモデルの差異から得られ、データ認識型のレイヤー選択を通じてタスク転移可能な安全性ベクトルへと洗練されます。その後、各下流タスク適応モデルにおいて、少数ショット学習によるレイヤー単位の係数再キャリブレーション経由で表現されます。
複数のモデルファミリー、下流タスク、安全性評価者を対象とした実験結果によれば、SafeGeneで強化されたモデルは有害な応答率を低減させながら下流パフォーマンスを維持し、安全性と有用性のトレードオフにおいて既存の安全適応手法を上回る性能を示しています。このアーキテクチャ互換モデルファミリー内での横断的再利用が可能な設計により、繰り返される安全性回復問題への実用的なソリューションを提供します。