arXiv (AI)AI
拡散言語モデル:実験的分析
Diffusion Language Models: An Experimental Analysis
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は次のトークンを予測するオートレグレッシブな生成方式により、言語モデリングに革命をもたらし、様々なタスクで高い性能を発揮してきました。しかし最近、テキストを反復的なノイズ除去を通じて生成する「拡散言語モデル(DLM)」が、新たなパラダイムとして注目を集めています。DLMはオートレグレッシブ方式とは異なり、次のトークン予測ではなく、シーケンス全体の並列的な精緻化を可能にする特徴があります。
拡散ベースのアーキテクチャは多数提案されていますが、評価プロトコル、データセット、推論予算、生成ハイパーパラメータが異なるため、各モデルの能力を正確に比較し、トレードオフを理解することが困難でした。本研究は、最新のDLMに対する体系的な実験分析を実施しています。8つの最先端DLMを、推論、コーディング、翻訳、知識問題、構造化問題解決にまたがる8つのベンチマークで評価し、生成品質と計算効率の両面を明示的に考慮しています。
推論時に影響を及ぼす主要な要因として、ノイズ除去ステップ数、コンテキスト長、ブロックサイズ、並列アンマスキング戦略などの影響を詳細に分析しました。同一条件で訓練した小規模モデルとの制御比較実験も実施し、大規模実験を補完しています。
本研究の分析により、拡散ベースの言語モデリングは、異なるタスク、アーキテクチャ、推論予算にわたって異なる強みと限界を持つことが明らかになりました。DLMの挙動は生成時の設計選択に大きく影響され、性能と計算効率のトレードオフを生じることが示されています。この研究は、現代的なDLMの能力と展開特性に関する実践的な知見を提供するものです。