arXiv (NLP)AI
自然言語における任意の条件付き分布のモデリングを簡素化する手法
Simplifying the Modeling of Arbitrary Conditionals in Natural Language
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自然言語処理の分野において、大規模言語モデル(LLM)の条件付き生成能力を拡張する新しい手法が提案されました。従来のCausal Transformerは、結合分布の自己回帰的因数分解を通じてシーケンスをモデル化し、効率的な左から右への復号化と条件付き尤度計算を可能にしています。しかし、このアーキテクチャには重大な制限がありました。過去と未来のトークンの両方に条件付けされたテキストブロックなど、任意の条件付き分布からサンプリングしたり、その尤度を計算したりすることが計算上実行不可能だったのです。
これまでいくつかの研究がこの問題を解決しようと試みてきましたが、新しいアーキテクチャの導入は往々にして任意の条件付き分布のモデリング性能を低下させ、生成品質の劣化をもたらしていました。今回提案されたArbitrary Conditionals GPT(AC-GPT)は、標準的なCausal Transformerに対する単純な修正を導入することで、過去や未来、混合されたコンテキストを含む任意の条件付き分布から、単一の前向きパスで評価とサンプリングを可能にします。
重要な点として、AC-GPTは標準的な左から右への順序付けと次トークン予測目的を保持しています。この互換性は、自然言語処理における強い性能と効率的な学習の両方に不可欠な特性です。既存のLLMをこの手法に対応させるためのファインチューニングが容易になることを意味しており、実用的な応用可能性が高まります。実験結果は、AC-GPTが任意の条件付き分布のモデリングにおいて従来の手法を上回るパフォーマンスを示す一方で、標準的な左から右への性能を低下させないことを示しています。