arXiv (AI)AI
TITLE_JA: 無から有へ:言語モデルはゼロの概念を発見できるか?
Nothing from Something: Can a Language Model Discover 0?
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
人工知能システムが人類の数学的知識の境界を拡張する可能性を持つとして開発が進む中、重要な問題が浮上しています。それは、これらのシステムがトレーニングデータをどの程度超えて機能できるかという点です。数学的発見には、訓練データにない状況での強力な汎化能力が必要となります。つまり、本質的に新しく、論理的により強力な数学的構造を仮説立てることができるかどうかが問われるのです。人間の認知能力では言語スキルがそうした汎化を支援していると考えられていますが、AIモデルでも同様の現象が起こるのでしょうか。
本研究は、シンプルな算術を事例として、現代的なAIモデルが数学的視野をいかに拡張できるかを検証しています。特に焦点を当てているのは、モデルが独立して「ゼロ」という概念を発見できるかどうかという点です。研究結果によると、GPT-2サイズの言語モデルは、言語の事前学習の有無を問わず、テスト時点ではこうした汎化を実行できません。しかし興味深いことに、ゼロに関する数十~数百の例でトレーニングを行うと、モデルの性能は大幅に向上することが判明しました。さらに、言語事前学習を施すことで、必要な学習例の数が約50%削減されることが確認されています。これは言語能力がニューラルモデルの数学的発見をサポートする足場(スキャフォールディング)として機能していることを示唆しており、人間の学習メカニズムとAIシステムの関係を理解する上で重要な知見となります。