arXiv (NLP)AI
TITLE_JA: 予測と再構成:自己教師あり言語表現学習の統合目的関数
Predict and Reconstruct: Joint Objectives for Self-Supervised Language Representation Learning
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
マスク言語モデリング(MLM)はBERT以来、テキストエンコーダーの事前学習において主流の手法となってきました。しかし、この手法は表面的なトークン同一性に強く固定された表現を生成する傾向があり、より深い意味構造を十分に捉えられないという課題がありました。視覚および音声領域でのジョイント埋め込み予測アーキテクチャ(JEPA)の成功に着想を得て、研究者らは新しいハイブリッド事前学習目的関数を提案しています。この手法は、JEPA形式の潜在空間予測損失と標準的なMLM目的関数を単一の共有エンコーダー上で組み合わせるもので、学習可能なスカラパラメータによって両目的を動的に平衡させながら訓練されます。
ハイブリッドモデルと純粋なMLMベースラインの両方が、NVIDIA H100を用いて同一のアーキテクチャと計算予算でEnglish Wikipedia上で事前学習されました。その後、5つのGLUEベンチマーク(SST-2、MRPC、MNLI、CoLA、STS-B)にわたって4つのプーリング戦略を使用した詳細な表現分析が実施されました。
分析の結果、ハイブリッドエンコーダーは従来のMLMと比較して有意に統一的な埋め込み(均一性スコアが-0.16未満対-0.05)を生成し、最大プーリング下でより豊かなスペクトル幾何学を示すことが明らかになりました。さらに、表面的な語彙情報の符号化が少なく、意味情報と語彙情報のバランスが優れていることが確認されました。
興味深いことに、線形プローブによる下流タスクの精度は類似していますが、幾何学的な違いは一貫かつ有意であり、JEPA予測目的関数が標準的な精度指標では捉えられない方法で潜在空間を再構成していることを示唆しています。