arXiv (AI)AI
TITLE_JA: CaVe-VLM-CoT:解釈可能なビジョン言語モデルフレームワーク
CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ビジョン言語モデル(VLM)は、流暢だが視覚的に忠実でない出力を生成する幻覚現象に悩まされ続けています。既存のチェーン・オブ・ソート(思考の連鎖)と検索拡張方式は、段階レベルの引用根拠付けを強制せず、検索への検証失敗をルーティングして修正することができないため、この問題に部分的にしか対応していません。
この課題に対して、研究者らは「CaVe-VLM-CoT」という新しいフレームワークを提案しました。これは反射ベースのエージェント型RAG(検索拡張生成)フレームワークであり、5段階のクローズドループパイプラインを通じて証拠に基づいた推論を強制します。具体的には、抽出器(Extractor)、検索器(Retriever)、ソルバー(Solver)、引用注入器(Citation Injector)、検証器(Verifier)で構成されており、根拠のない主張が検出されると、構造化されたフィードバックが抽出器に送られ、対象を絞った再検索が行われます。
このフレームワークの評価には、既存の枠組みでは測定されていなかった検索品質、段階ごとの引用忠実度、クロスモーダル根拠付けを総合的に測定する23個のコンポーネント別メトリクスが開発されました。その中でも「CaVeScore」という複合メトリクスが中核を成し、精度、引用精度・再現率、帰属性、証拠根拠付けに重みを付けています。
アーキテクチャやプロンプトに一切の修正を加えることなく、CaVe-VLM-CoTはScienceQAテストで87.1%の精度と56.6%のCaVeScoreを達成し、30科目に及ぶMMUUテストでは55.2%の精度と35.7%のCaVeScoreを実現しています。