arXiv (NLP)AI
大規模言語モデルの問題解決能力を調査――静力学問題に関する研究
Investigating LLM's Problem Solving Capability -- a Study on Statics Questions
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)は社会のあらゆる分野に急速な影響を及ぼしており、特に教育領域では、様々な科目の課題や試験に対応できる能力が実証されています。しかし既存の研究の多くは公開されている問題データセットに依存しており、特定のトピックに対する詳細な分析が不足していました。工学教育、特に機械工学の分野では、特定の問題タイプに対するLLMの性能に関する体系的な調査が限定的です。
本研究は従来の方法とは異なり、テキストボック形式で単純にLLMに質問するのではなく、モデル蒸留プロセスを採用して静力学問題解決能力を評価しました。ChatGPTを蒸留することで、テキストのみの静力学問題25問を抽出し、さらに図表を追加したバージョンと数値を変更したバージョンという2つの追加データセットを構築しました。
実験結果から、テキストのみの静力学問題ではLLMが良好な性能を発揮する一方で、図表が導入されると精度が低下し、複数ステップの推論が必要な問題ではさらに顕著な性能低下が見られました。さらなる分析によると、この性能低下は画像認識能力の制限が主原因ではなく、複数ステップの推論能力の制限と、抽出した視覚情報を連続する解決段階全体にわたって一貫して適用できないことが根本的な問題であると示唆されています。