arXiv (Robotics)AI
RoboGaze:構造化ビジョン言語分析によるロボット世界モデルの評価
RoboGaze: Evaluating Robot World Models via Structured Vision-Language Analysis
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット技術の急速な進展に伴い、ロボット世界モデルは合成ビデオ生成を通じた具体的な予測や計画立案を可能にしつつあります。しかし、これらの生成ビデオの評価は複雑な課題を抱えています。見た目は現実的な出力でも、物理法則や時間的一貫性、タスク論理に違反する場合が多く、従来のメトリクスや単一の大規模ビジョン言語モデル(VLM)による判定では汎化性能が低く、正確な診断価値を提供できていません。
この課題に対応するため、研究チームはRoboGazeという革新的なフレームワークを開発しました。このトレーニング不要のマルチエージェントVLMフレームワークは、生成されたロボット操作動画に対して構造化された解釈可能な評価を提供します。与えられたタスク指示と動画に対して、RoboGazeは三段階のパイプラインで動作します。まずタスク・シーン接地処理を実施し、次に次元固有の専門家ルーティングを行い、最後に批評家ベースの検証を実施します。この過程で、ロボティクス固有の新しい6次元30タイプ分類法に基づいて、時間的に局所化されたグリッチレポートを出力します。
RoboGazeの性能を検証するため、シミュレーションおよび実世界の複数視点操作にわたる382クリップの人間検証済みデータセットが構築されました。八つのオープンソースおよび独占的VLMバックボーンを評価した結果、RoboGazeはゼロショット基線を劇的に上回り、説明F1スコアを最大43ポイント、時間的アライメント(F1 × IoU)を最大37ポイント向上させ、人間の性能との差のおよそ85パーセントを埋めました。さらに、その批評家検証器は標準VLMの「狼少年」誤検知の問題を軽減し、クリーンクリップの精度を25パーセント未満から80パーセント以上に向上させています。RoboGazeは、ロボット世界モデルの厳密な評価のためのスケーラブルで高度に解釈可能な診断ツールを提供します。