arXiv (AI)AI
カスケード線形特徴を用いたイエスマン傾向の検出と制御
Detecting and Controlling Sycophancy with Cascading Linear Features
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の振る舞いを解釈し制御するためには、目標となる振る舞いと回避すべき振る舞いを明確に示すコントラスティブなサンプルペアが必要とされます。これらのデータペアは、解釈可能性フレームワークがモデルの特定の振る舞いに責任のある特徴を信頼性をもって検出し、その結果としてモデルを目的の方向へ導く能力を決定するものです。
本研究では、特定の振る舞いに関連するカスケード線形特徴を分離する反復的データ生成パイプラインが提案されています。単純な二値ペアを超えて、振る舞いと線形にスケールする特徴の段階を示すサンプルを分離することで、より良い特徴の分離が可能になることが示されています。研究の焦点はイエスマン傾向(ユーザーの承認を優先する傾向)の検出と制御に当てられています。
カスケードサンプルを通じて発見されたイエスマン特徴は、線形に分離可能な部分空間を形成し、ベースライン手法よりも目的の振る舞いに対応するモデルアクティベーションの選択を可能にすることが実証されました。さらに、検出、決定的なスコアリング、そして堅牢なステアリングの能力も評価されています。結果として、LLMジャッジとシステムプロンプティングのベースラインと同等またはそれを上回る性能を発揮しながら、計算負荷が低く、解釈可能性の保証がより強いことが確認されました。