arXiv (CV)AI
モダリティ内近傍の一貫性を活用したクロスモーダル対応ノイズ修正のためのグラフベース推論フレームワーク
Intra-Modal Neighbors Never Lie: Rectifying Inter-Modal Noisy Correspondence via Graph-Based Intra-Modal Reasoning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模なウェブスクレイピングデータセットは、クロスモーダル検索の発展を促進してきました。しかし、このようなデータセットには画像とテキストなど異なるモダリティ間の対応にノイズが含まれるという課題があり、これがモデルの汎化性能を大きく低下させています。従来の手法は主にノイズをフィルタリングしたり代替ラベルを探索したりすることで対処してきましたが、これらのアプローチは「離散選択」パラダイムに限定されていました。
研究チームはこの問題に対して、単一の離散的なプロキシへの依存がもたらす「単一点の脆弱性」と「離散化誤差」という根本的な課題を指摘しています。これらの制限を克服するため、Intra-modal Neighbor-aware Noise Rectification(IN2R)という新しいフレームワークを提案しました。IN2Rは代替ラベルの探索から信頼性の高い教師信号の合成へと方針を転換します。
IN2Rの核となるのは、モダリティ内データ固有の幾何学的安定性を活用することです。フレームワークは動的なクロスモデルメモリから取得した隣接データに対してGraph Refinerを用いた関係推論を実行します。離散的なラベルの伝播ではなく、局所的な意味近傍のコンセンサスを反映した連続的でソフトなプロトタイプを合成することで、モダリティ間の不整合を効果的に修正します。
Flickr30K、MS-COCO、CC152Kを含む複数のベンチマークでの広範な実験により、IN2Rが最先端の手法を大幅に上回る性能を達成することが確認されました。研究者はコードと事前学習済みモデルをGitHubで公開しています。