arXiv (NLP)AI

TITLE_JA: 一貫性駆動型強化学習による多言語事実知識の改善

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

2026年6月8日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

大規模言語モデル（LLM）は英語を中心に学習されているため、膨大な世界知識を保有していますが、他の言語でそれを確実に表現することがしばしば困難です。この「多言語事実不一致」と呼ばれる現象に対処するため、研究チームはPolyFactという新しいデータセットを開発しました。このデータセットは12の言語的に異なる言語にわたって、Wikidataに基づいた10万件の事実質答対を含む大規模な並列多言語質問応答データセットです。 PolyFactを用いて、研究チームはQwen-2.5-7BとOLMo-2-1124-7Bという2つのモデルに対して、複数のアプローチを比較検証しました。具体的には、軽量な継続事前学習（CPT）、教師あり微調整（SFT）、そしてGroup Relative Policy Optimization（GRPO）と呼ばれる強化学習手法です。実験結果から、GRPOは一貫してSFTを上回り、多言語一貫性を改善するとともに、未学習言語への汎化能力も向上させることが判明しました。一方、並列データに基づくCPTは限定的な追加効果しかもたらしませんでした。メカニズムの詳細な分析によれば、GRPOはMLPレイヤーと注意ヘッドにおける言語特化性を削減することで、多言語ルーティングを再構成していました。これにより、より共有的な多言語表現が促進されることが明らかになりました。研究チームはこのコード、モデル、およびデータセットを公開リリースしています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

TITLE_JA: 一貫性駆動型強化学習による多言語事実知識の改善

日本語要約青い用語にマウスを合わせると解説が表示されます