arXiv (AI)AI
TITLE_JA: チャットモデルにおいて、拒否機能はペルソナ特性の下流に位置する
Refusal Lives Downstream of Persona in Chat Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の安全性研究において、新たな知見が報告されました。従来、チャットモデルの「拒否機能」(有害な質問への回答を拒否する機能)とペルソナ特性(モデルのキャラクター性)は別々のメカニズムとして研究されてきましたが、実際には両者が相互に作用することが明らかになったのです。
研究チームはQwen2.5-7B-InstructとLlama-3.1-8B-Instructの2つのモデルを対象に詳細な調査を実施しました。これらのモデルの活性化空間における線形方向を分析し、「協調的なペルソナ方向」と「拒否方向」を抽出して操作しました。その結果、協調的なペルソナを強調するとLlamaモデルの拒否率が97%から2%にまで低下することが判明したのです。つまり、ユーザーに従順なペルソナを持つように調整すると、有害な要求に対する拒否機能が著しく弱まるということです。
さらに興味深いことに、後段階のレイヤーで拒否方向を再導入しても、前段階レイヤーでは拒否機能の復旧が部分的に留まりました。これにより、拒否機能は計算されている場所よりもさらに下流の、後段階レイヤーの表現段階で制御されていることが示唆されます。ペルソナ方向を特定の後段階ウィンドウから投影すれば基本レベルに復旧しますが、無関係な方向から投影してもそのような効果は生じません。
この研究成果は、拒否機能を孤立した単一の方向として扱うだけでは不十分であり、ペルソナ特性による依存関係を考慮する必要があることを示唆しています。AIの安全性向上には、複数のメカニズム間の相互作用をより深く理解することが重要なのです。