arXiv (NLP)AI
TITLE_JA: 一貫性駆動型強化学習による多言語事実知識の改善
Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は英語を中心に学習されているため、膨大な世界知識を保有していますが、他の言語でそれを確実に表現することがしばしば困難です。この「多言語事実不一致」と呼ばれる現象に対処するため、研究チームはPolyFactという新しいデータセットを開発しました。このデータセットは12の言語的に異なる言語にわたって、Wikidataに基づいた10万件の事実質答対を含む大規模な並列多言語質問応答データセットです。
PolyFactを用いて、研究チームはQwen-2.5-7BとOLMo-2-1124-7Bという2つのモデルに対して、複数のアプローチを比較検証しました。具体的には、軽量な継続事前学習(CPT)、教師あり微調整(SFT)、そしてGroup Relative Policy Optimization(GRPO)と呼ばれる強化学習手法です。実験結果から、GRPOは一貫してSFTを上回り、多言語一貫性を改善するとともに、未学習言語への汎化能力も向上させることが判明しました。一方、並列データに基づくCPTは限定的な追加効果しかもたらしませんでした。
メカニズムの詳細な分析によれば、GRPOはMLPレイヤーと注意ヘッドにおける言語特化性を削減することで、多言語ルーティングを再構成していました。これにより、より共有的な多言語表現が促進されることが明らかになりました。研究チームはこのコード、モデル、およびデータセットを公開リリースしています。