arXiv (NLP)AI
言語系統の関連性とタスク適応を区別する:多言語転移学習の実証研究
Disentangling Linguistic Relatedness from Task Alignment in Cross-Lingual Transfer
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自然言語処理における多言語転移学習の有効性は、言語系統の近さに由来するのか、それともタスク形式への適応に由来するのかという根本的な問題に取り組む研究が発表されました。研究チームは、パラメータ数が4億から6710億にわたる7つの大規模言語モデルを用いて、アラビア語でのファインチューニング後、セム語族の言語および非セム語族の言語を対照群として、ゼロショット読解理解能力を評価しました。
実験結果は従来の仮説を覆すものでした。言語系統の近さが多言語転移を促進するという予想に反して、DenseモデルとMixture-of-Experts(MoE)アーキテクチャの両方において、セム語族特有の転移の証拠は検出されませんでした。基準となるベースラインモデルの性能が低い場合には、すべての言語にわたって劇的な改善が観察されましたが、強いベースラインを持つモデルでは言語系統に関わらず限定的な改善しか見られなかったのです。
これらの知見の背景にあるメカニズムをさらに詳しく調べるため、研究チームは思考の連鎖(chain-of-thought)を利用したアブレーション研究を実施しました。その結果、ファインチューニングから最も利益を得るモデルと、推論時の推論能力から最も利益を得るモデルが同一であることが明らかになりました。このことは、言語間知識転移ではなく、むしろタスク形式への適応メカニズムが両者の改善効果に共通して作用していることを強く示唆しています。本研究は、多言語転移学習の真の駆動力についての理解を深め、今後のモデル設計と評価方法に重要な示唆を与えるものです。