arXiv (CV)AI
TITLE_JA: ABACUS:画像内物体数認識と生成を統合する基盤モデルの適応化フレームワーク
ABACUS: Adapting Unified Foundation Model for Bridging Image Count Understanding and Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ABACUSは、物体カウンティング、群衆カウンティング、参照表現カウンティング、そしてカウント忠実性を備えた画像生成を、ベンチマーク固有の訓練なしに一つのモデルで処理できる統合型ビジョン言語モデルです。このモデルは既存の3Bパラメータを持つ統合基盤モデルをベースに構築されており、物体ローカライゼーションタスクに適応させるために3つの重要な革新技術が採用されています。
第一の特徴は、密度認識型適応ズーミング技術とオブジェクトネスマップを使用した空間的グラウンディングです。これにより、モデルは異なるスケールの物体を効果的に認識できます。第二に、GRPOを活用した境界認識カウント方針により、画像の切り取り境界による誤差を排除します。第三に、サイクル一貫性GRPOストラテジーを導入することで、理解ブランチが生成出力に対して自己批判を行い、外部アノテーション無しに理解と生成のギャップを埋めます。
ABACUSは7つのベンチマーク全体で最先端の結果を達成し、タスク特化型の専門モデルと大規模な汎用モデルの両方を上回るパフォーマンスを示しています。統合型アプローチにより、複数のカウンティングタスクを効率的に処理しながら、高精度な画像生成を実現する点で、視覚言語モデルの大きな進歩となります。