arXiv (CV)AI
SD-GRPO:長文ビジョン言語生成のための検証可能なセグメント分解
SD-GRPO: Verifiable Segment Decomposition for Long-Form Vision-Language Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)向けに開発されたグループ相対方針最適化(GRPO)とその亜種が、最近マルチモーダルLLMに応用され、優れた結果を生み出しています。しかし、単一のスカラー値で行われる粗粒度の信用割り当ては、視覚言語タスクに対しては不十分です。特に出力が意味的に豊かな画像に基づいた長文応答となるような場合、このアプローチの限界が明らかになります。
本研究は、この問題に対処するため、従来のスカラー値定式化では捨てられていた構造的なシグナルに着目しました。それは長文ビジョン言語出力の自然なセグメンテーション(分割)です。提案手法「Segment-Decomposed GRPO(SD-GRPO)」は、ロールアウトグループ全体で検証可能なセグメント単位の報酬をz正規化し、単一のスカラー値の代わりにセグメント単位の利点ベクトルを生成します。
評価は、セグメント間の意味的結合度の増加に応じて整理された3つの設定で行われました。DOCCIから構築された意味的に独立したセグメントを持つ多パネル密集キャプションタスクでは、SD-GRPOはGRPOベースラインを一貫して上回り、セグメント数が多いほど改善幅が大きくなります。MultiChartQAから構築された多チャート長文VQAタスクへの拡張では、ロールアウトレベルの報酬が出力長に比例するクロスセグメント信用誤配分の問題を理論的・経験的に示しました。MMSciデータセット上の実世界的な科学図表キャプションタスク(サブフィギャーキャプションが図全体で文脈を共有)では、ホリスティック報酬とセグメント単位報酬をブレンドすることで両者を上回る性能を達成。さらに、Dr. GRPOへの統合を通じて、SD-GRPOは最小限の実装オーバーヘッドで任意のGRPOフレームワークに適用でき、長文ビジョン言語生成を強化できることが確認されました。