arXiv (CV)AI
TITLE_JA: 真の多言語対応ではない:VLM評価に欠ける文字体系の一貫性
Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ビジョン言語モデル(VLM)の多言語評価における大きな盲点が明らかになった。現在の評価方法は言語と文字体系の一対一対応を前提としているため、複数の文字体系を使用する言語のユーザーである数十億人を見落としているという問題だ。
この課題に対処するため、研究者たちはパンジャビ語の3つの活動的な文字体系であるグルムキー文字、シャームキー文字、ローマ字にわたって1,000個の厳密に対応する画像テキストペアで構成されたベンチマーク「PuMVR(パンジャビ多言語ビジュアル推論)」を開発した。最先端のVLM 10モデルを評価した結果、システマティックな「スクリプトギャップ」が明らかになった。モデルは同一のビジュアルタスクをある文字体系では解くことができるが、別の文字体系では失敗するケースが頻繁に発生し、精度差が16%に達する場合もあった。
重要な発見として、視覚入力は全体的に絶対性能を均一に向上させるにもかかわらず、文字体系による差は埋まらないことが判明した。また、文字体系を越えた文脈内転移は極めて脆弱であり、スクリプトロックされた知識表現を露呈させている。McNemar検定がすべての文字体系ペアで実施された結果は、現在の「多言語」VLMが真の多文字体系対応ではないことを実証している。
研究チームは「スクリプト一貫性率(SCR)」という新しい評価指標を提案しており、このベンチマークではわずか24.8%という低さを示している。この指標を公式化することで、文字体系に依存しない評価を実現し、AI技術への公平なアクセスを確保することができると主張している。データとコードはGitHubで公開されている。