arXiv (NLP)AI
言語モデルのコンテキスト利用における言説的役割ラベルの影響
Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
コンテキスト拡張型言語モデルシステムにおいて、提供されたコンテンツを「Reference:」「Evidence:」「Instruction:」「Note:」「Example:」といったラベルで囲む慣行が一般的ですが、これらのラベルがモデルの振る舞いに及ぼす影響についてはほとんど検討されていません。本研究では、500項目のMMIU-Proテストセットを対象とした実験的手法を導入しました。同じ誤った回答を含む記述を異なるディスコース役割ラベルで提示し、モデルが注入された誤った選択肢を出力するかどうかで採択度を測定しました。
GPT-4o、DeepSeek V3 Pro、Llama-3-8B-Instruct、Qwen2.5-7B-Instructの複数のモデルにおいて、誤答採択率は56~84ポイント変動することが明らかになりました。「Instruction:」や「Reference:」といったバインディングやソース的なラベルは高い採択率を生み出し、一方「Example:」は一貫してそれを抑制しました。ペアテスト、ブートストラップ区間推定、最終指示の削除実験、およびQwenの最終ステップの対数確率プローブが、ラベル条件付き候補選好を支持する結果となりました。
境界条件プローブにより、効果が減弱または持続する箇所が特定されました。算術タスクは採択率を低減させ、文章形式の外部コンテキストはラベル間のギャップを保持し、短答式評価オプション文字コピーを排除し、ネストされたラベル競合は説明的フレーミングが採択範囲を制限できることを示唆しました。200件の手作業による検証により、短答式の結果が慎重な評価基準下で安定していることが確認されました。
本研究の結論は限定的ですが実用的です。コンテキスト利用とRAGベンチマークは、提示形式の選択が提供されたコンテキストへの依存度の測定値に影響を与える可能性があるため、ラッパーラベルを報告・制御すべきであることが示されました。