arXiv (CV)AI
マルチモーダル大言語モデルの適応における曲率ガイド型混合法
Curvature-Guided Mixing for MLLM Adaptation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル大言語モデル(MLLM)を特定のタスクに対してファインチューニングする際、モデルが持つ汎用的な能力を失ってしまう「カタストロフィック・フォーゲッティング」という問題が生じることが知られている。この課題に対応するため、研究者らは事前学習済みモデルとファインチューニング済みモデルを組み合わせるモデル・マージング手法を検討してきたが、既存の方法の多くはヒューリスティックであるか、最適でない目的関数を採用している。
新たに提案された「曲率ガイド型混合(CGM)」フレームワークは、理論的な基礎を持つアプローチである。CGMは統合最適化目標を定式化し、損失関数の景観に対する2次近似(ヘッシアン)を利用して、最適な「ソフト混合」比率を解析的に導出する。この比率は各パラメータを相対的なタスク固有の曲率に基づいてインテリジェントに混合する。さらに、研究者らはCGM†と呼ばれるロバストな「ハード混合」の変種も開発した。これは曲率を考慮した新しいスコアリング方法によってパラメータの疎な選択を行うものである。
LLaVA-1.5とQwen2.5VLを用いた複数のダウンストリームタスク上での実験結果によれば、CGMとCGM†はいずれも既存手法と比較して、タスク特化と汎用知識の保持のトレードオフを一貫して改善することが示された。このアプローチにより、MLLMは特定のタスクに適応しながらも、元々持っていた広範な知識や能力を維持できるようになる可能性が高い。コードはGitHubで公開されており、研究コミュニティでの活用が期待されている。