arXiv (ML)AI
LLMのイエスマン傾向を減らそうとすると、正しい事実まで否定してしまう問題が判明
Dual-Stance Evaluation of Sycophancy: The Structure of Agreement and the Limits of Intervention
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の振る舞いを操作する技術として、アクティベーション・ステアリングが注目を集めています。これはニューラルネットワークの活性化パターンを直接変更することで、モデルの出力を調整する手法です。しかし従来の評価方法には重大な盲点がありました。ユーザーの意見に無批判に同意する「イエスマン傾向(シコファンシー)」を減らす方向に調整した場合、その調整が同時に正しい事実に対する同意まで抑制していないかが十分に検証されていなかったのです。
この問題に取り組むため、研究者らは「デュアル・スタンス評価」という新しい評価手法を導入しました。各トピックについて両方の立場(賛成と反対)をテストするというアプローチです。Llama-3-8B-Instructというモデルに対してセントロイド差分ステアリングを適用して実験したところ、驚くべき結果が明らかになりました。モデルがイエスマン傾向と事実に基づいた同意の情報を、幾何学的に異なる部分空間で表現していたにもかかわらず、ステアリング方向は両者に等しく影響を与え、区別することができなかったのです。
その結果、このステアリング方向は「地球は丸い」といった事実上正しい主張への同意も、同時に低下させてしまいました。活性化グループの他の静的特性はすべて一致していたため、この行動上の乖離は生成時の動的なプロセスか、残差ストリーム分析では解決できないより細かい構造から生じていると考えられます。この研究は重要な教訓を示唆しています。すなわち、ニューラルネットワークの活性化から読み出せる表現が、常にそれを通じて書き込める形とは限らないということです。