arXiv (CV)AI
TITLE_JA: モデル間で安全性表現は共有されるのか?安全な画像生成のためのクロスモデル操舵
Do Models Share Safety Representations? Cross-Model Steering for Safe Visual Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
生成AIモデルの急速な発展に伴い、安全性制御がますます重要な課題となっています。しかし現在のアプローチのほとんどはモデル固有であり、新しいアーキテクチャごとに再トレーニングやカスタマイズされた介入が必要とされています。本研究は、安全性が一度学習されたら複数の異なる生成モデル間で再利用可能なポータブルな潜在方向として表現できるかという問いに取り組んでいます。
研究チームが提案する新たなフレームワークは、クロスモデル安全性操舵を実現するものです。その仕組みは、まずソース側のLLMから安全なプロンプトと危険なプロンプトのペアを用いて安全性方向を推定します。次に、この方向を軽量なアライメントを通じてターゲット生成モデルに転送しますが、この際に使用するのは安全なデータだけです。そして推論時にこの安全性方向を適用します。重要な点として、このパイプラインはターゲット側で危険なデータにアクセスしません。これにより、安全性が共有された表現ジオメトリを通じて転送可能かどうかを純粋に検証できます。
単一のグローバルな方向にとどまらず、カテゴリー固有の安全動作を捉えるマルチベクトル拡張も開発されており、より選別的な制御が可能になっています。研究チームは、テキスト画像生成とテキスト動画生成にわたって、多様なソース・ターゲットモデルペアでこのアプローチを評価しました。その結果、転送された安全性方向は、ターゲットモデル上でネイティブに学習された方向と比較して、同等のASR削減とCLIP-Score/FIDトレードオフを実現しながら、ターゲット側で危険なデータを必要としないことが明らかになりました。つまり、安全性の向上は生成品質の低下を伴わないということです。これらの結果は安全性のモジュール的な見方を示唆しており、安全性関連の動作はモデル特異的ではなく、モデル間で持続する潜在方向を通じて制御可能であることが示されています。