arXiv (NLP)AI
TITLE_JA: アラビア語の文化・社会言語学的知識におけるフロンティアLLMのベンチマーク評価:人間の専門家グラウンドトゥルースを用いたクロス評価フレームワーク
Benchmarking Frontier LLMs on Arabic Cultural and Sociolinguistic Knowledge: A Cross-Evaluation Framework with Human SME Ground Truth
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)を専門的で高リスクな領域に導入する際、人間の専門家による評価コストが大きな障壁となっています。特にアラビア語の社会言語学的知識評価においては、単なる言語的流暢性だけでなく、深い文化的理解が必要であり、表面的な評価指標では代替できません。この研究は、エジプト方言とイラク方言という過小評価されてきたアラビア語方言コミュニティを対象として、クロス評価フレームワークを開発しました。
ネイティブスピーカーの専門家(SME)により、103個の検証済みプロンプト・ルーブリック対(エジプト方言70個、イラク方言33個;文化的内容53個、言語的内容50個)が作成・評価されました。ペナルティ加重ルーブリックを用いて、肯定的な内容要件と負の誤りが区別されています。3つのフロンティアLLMが対象モデルとして機能し、人間の専門家により302個のユニークなプロンプト応答対で評価されました。一方、5つのフロンティアLLMが自動審査官として機能し、プロバイダーレベルの自己評価ガードを適用しています。
平均絶対偏差(MAD)と符号付き平均誤差を組み合わせた二重指標スキームにより、方向的な採点バイアスと対称的ノイズが分離されました。1,307件の審査評価を通じた分析では、GPT-5.4が最も信頼性の高い審査官(MADj = 10.21 pp、符号付き誤差 = -1.12%)であり、5つの審査官中4つが体系的な寛容性を示しました(+2.01%から+6.56%)。文化的タスクはすべての審査官にとって言語的タスクより採点が難しく、モデルはエジプト方言プロンプトではイラク方言プロンプトよりも大幅に高い性能を示しました。ただし、イラク側とエジプト側の専門家間の寛容性の違いを考慮すると、このギャップをモデルの知識だけには帰属できません。注目すべき発見として、ネイティブスピーカーの判断をシミュレートするための暗黙的文化推論が、すべての審査官モデルにおける自動採点の主要な失敗モードとして浮かび上がりました。