arXiv (NLP)AI
TITLE_JA: トランスフォーマーが「不可能な」言語を学習する際、実際には何を学んでいるのか
When transformers learn "impossible" languages, what do they learn?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
近年の研究によって、トランスフォーマー言語モデルは人間が習得不可能とされる「不可能な」言語よりも、自然言語に対して強いバイアスを持つことが示唆されています。しかし既存の文献の多くは、サンプル効率やテストセットのパープレキシティの違いに基づいて主張を展開してきた一方で、人間の言語に非存在する理由を説明できる言語能力の直接評価は十分に行われてきませんでした。本研究は2つの理論的に動機づけられた仮説を検証しました。すなわち、文法的感度の欠陥または生成能力の不足から生じる言語の不可能性です。
GPT-2スタイルのモデルを「不可能な」英語の変種で学習させ、BLiMP最小ペア試験を使用して文法性への感度を測定しました。その結果、モデルのパフォーマンスは段階的な劣化を示し、その程度は言語の情報局在性によって調停されることが分かりました。一方で、生成タスクでは顕著な失敗が観察され、より長い文の生成において高品質な文の生産量が大幅に減少しました。
これらの結果は、生成能力の不足と伝達の失敗が、言語モデルの振る舞いと不可能言語の非存在との間のもっともらしい関連仮説として機能することを示唆しています。つまり、トランスフォーマーモデルが「不可能な」言語を学習する際には、文法規則の基本的な理解には成功しているものの、その言語で自然な文を生成することに著しく失敗しているということです。この知見は、なぜ特定の言語体系が人間社会に存在しないのかを理解する上で、重要な示唆を与えます。