arXiv (ML)AI
TITLE_JA: 推論時アライメントを確率的モデルブレンディングで最適化:介入すべきか否かの判断
To Intervene or Not: Guiding Inference-time Alignment with Probabilistic Model Blending
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)の広範な展開に伴い、モデルアライメントはユーザーの指示に安全かつ効果的に応答させるために不可欠となっています。様々なアライメント手法の中でも、推論時アライメントは出力生成時にのみ介入するため、比較的低コストで実現できる手法として注目されています。
既存の推論時アライメント手法では、特定のアライメント済みモデルから抽出されたガイダンスを、その信頼性を適切に評価することなく適用してきました。しかし体系的な評価の結果、ガイダンスの有効性はモデルごとに大きく異なることが明らかになりました。特に問題となるのは、効果の低いガイダンスがモデルをさらに混乱させ、より多くの介入が必要になるという悪循環です。このような過度な介入は最終的に性能低下につながります。
これらの課題に対処するため、研究チームはBlendInという新しい推論時アライメントフレームワークを開発しました。BlendInの特徴は、単純な二値判定から離れ、複数モデルの知識を統合するハイブリッド分布を生成する点です。具体的には、各モデルの信頼性に基づいて加重平均することで、質を意識したアライメントを実現します。これにより有効なガイダンスは保持しつつ、信頼性の低い提案は過度に反映させないバランスの取れた調整が可能になります。実験結果では、困難なモデル組み合わせに対して最大50%の性能改善を達成しており、誤アライメントに対する診断信号と軽減戦略の両方を提供する実用的なソリューションとなっています。