arXiv (AI)AI
物理的に実行可能な世界モデル:クエリ条件付き具体化AIのケース
Physically Viable World Models: A Case for Query-Conditioned Embodied AI
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
具体化AI(embodied AI)における世界モデルの構築に関する重要な課題が指摘されています。現在、多くの世界モデルは観察予測に焦点を当てており、視覚的には妥当な結果を生成できますが、物理的には正確でない場合があります。この問題の本質は、見た目が同じシステムであっても、外部からの介入を受けるとまったく異なる挙動を示す可能性があることです。研究者たちは、潜在的な物理特性を変化させながら視覚シーンを固定した管理されたベンチマークを用いて、このような矛盾を露呈させました。既存のモデルは物理的に実行不可能な行動を推奨したり、相互作用の結果を誤って予測したり、安全でない行動を認可してしまう可能性があることが示されています。
解決策として、介入クエリに回答するために十分な最も単純な物理抽象化を特定する世界モデルが必要とされています。こうしたモデルは環境表現、潜在状態とパラメータ推定、行動仕様、介入ダイナミクス、クエリレベルの応答など、複数のモジュール化されたコンポーネントで構成されるべきです。自律的なオーケストレーターが各クエリに対して関連する抽象化を特定し、学習型と構造型の互換性のあるコンポーネントを組み合わせることが重要です。
転移モデルは解析的、シミュレーション的、学習型、またはハイブリッド型である可能性がありますが、介入結果を決定する構造を保持しなければなりません。このような分解アプローチにより、モデルは解釈可能性を高め、各コンポーネントを検証可能にし、出力をクエリに対して監査可能にします。正しい抽象化は世界の最も詳細なモデルではなく、クエリに関連する違いを保存する最も単純なモデルであるという設計原則が提示されています。研究チームは既存システムが正しく回答できないクエリにこのアプローチを実装し、オーケストレーターが計画、制御、検証のために物理的に実行可能なモデルを動的に組み立て、適応させる方法について説明しています。