arXiv (CV)AI
TITLE_JA: PerceptionDLM:マルチモーダル拡散言語モデルを用いた並列領域知覚
PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マルチモーダル大規模言語モデル(MLLM)は視覚理解タスクにおいて著しい進歩を遂げてきましたが、既存のMLLMのほとんどは自己回帰生成に依存しており、複数領域のキャプショニングを必要とする知覚タスクの効率性に制限があります。本研究で提案されるPerceptionDLMは、効率的な並列領域知覚に最適化されたマルチモーダル拡散言語モデルです。
PerceptionDLM-Baseという強力な基盤となるモデルの上に構築され、オープンソースの拡散MLLMの中で最先端のパフォーマンスを実現しています。このアーキテクチャはDLMの並列デコーディング特性を最大限に活用するよう設計されています。具体的には、効率的なプロンプティングと構造化注意マスキングを導入することで、複数のマスクされた領域を同時に知覚し、シーケンスレベルとトークンレベルの両方で領域説明を並列に生成することが可能になります。
評価方法として、研究チームは新たなParallel Detailed Localized Captioning Benchmark(ParaDLC-Bench)を構築しました。これは既存のDLC-Benchを拡張し、画像ごとに複数の領域マスクを含めることで、キャプション品質と推論効率の両方を評価できるようにしたものです。実験結果は、PerceptionDLMが領域キャプショニングにおいて競争力のあるパフォーマンスを維持しながら、マルチ領域知覚タスクで大幅な速度向上を達成することを示しています。
この研究は、拡散言語モデルの利点を活かして並列領域キャプショニングと知覚を実現する最初の成果であり、効率的で並列的な視覚知覚タスクに対するマルチモーダル拡散言語モデルの潜在能力を示すものです。コード、モデル、データセットはすべて公開される予定です。