arXiv (NLP)AI
Transformerベースの言語モデルにおける状況モデリングと心の理論の発達的軌跡
Developmental Trajectories of Situation Modeling and Mentalizing in Transformer Language Models
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
大規模言語モデル(LLM)が、テキストで説明されたエージェントの信念状態にどの程度敏感であるかを理解することは、AI の能力評価における重要な課題です。本研究は、この問題を発達的観点から追跡し、OlmoやPythiaといった言語モデルのスイートを通じて、複数の訓練段階にわたるメンタルステート推論の行動パターンと、その前提条件を調査しています。
研究の主要な発見によれば、虚偽信念課題(FBT)での成績は、モデルのサイズと十分な訓練量の両方に依存し、事前訓練の比較的後期に出現し、教師あり微調整(SFT)やDPOなどの事後訓練介入によって最も改善されることが明らかになりました。特に、メンタライジング(他者の心的状態の推論)の診断に最も適した「虚偽信念・暗黙的」条件で改善が顕著です。
一方で、FBTの性能は脆弱性を示しており、「考える」などの非事実動詞の使用により、たとえ真実信念の条件下においても虚偽信念の帰属が増加する傾向が観察されました。これらの知見を文脈化するため、基本的な事実的性質を報告する能力としての「状況モデリング」の出現も追跡されました。状況モデリングの精度は一般的にFBTの精度に先行し、これを上回りますが、特定の側面では驚くほど一貫性を欠いています。
総じて、より大規模で十分に訓練されたモデルは発達段階に応じた部分的に一貫性のある状況モデルを構築する一方で、予期しない脆弱性を示しており、LLMの能力を評価する上で発達的かつストレステストアプローチの価値が強調されています。