arXiv (NLP)AI
インド言語のローマ字コードミックス命令でLLMを評価するベンチマーク「Indi-RomCoM」
Indi-RomCoM: Code-Mixed Benchmark for Evaluating LLMs on Romanized Indic-English Instructions
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
多言語コミュニティにおいて、バイリンガル話者が地域言語と英語をローマ字で流暢に混在させるローマ字コードミックス(RCM)は、主要なコミュニケーション形式として広がっています。大規模言語モデル(LLM)は単一言語や標準字体のベンチマークでは高い性能を示していますが、RCMベースのコンテンツを用いた命令追従やリーズニング能力については、まだ十分な検証が行われていません。
こうした課題に対応するため、研究チームはインド言語のローマ字コードミックス命令に対するLLMの体系的な評価を可能にする「Indi-RomCoM」ベンチマークを開発しました。このベンチマークは7つの命令追従タスク、4つの広く話されているインド言語、そして3段階のコードミックス強度レベルをカバーしています。プロプライエタリモデル、オープンウェイトモデル、インド言語に特化したモデルを含む複数のLLMを、ゼロショットおよびフューショット設定で広範に評価しました。
評価結果から、LLMはRCM命令に対して一貫して性能が低下し、コードミックスの密度が高まるにつれてパフォーマンスは悪化することが明らかになりました。興味深いことに、推論タスクは毒性検出などの検出タスクよりも性能低下が少なく、これは生成される説明が必要なコンテキストを提供しているためだと考えられます。研究チームは、Indi-RomComが包括的で多言語対応のシステム開発を促進し、コミュニティ全体の発展に貢献することを期待しています。