arXiv (CV)AI
すべての関係が同じように回転するわけではない:視点ロバストな3Dシーングラフ生成のための変換認識型デカップリング
Not All Relations Rotate Alike: Transformation-Aware Decoupling for Viewpoint-Robust 3D Scene Graph Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
3Dシーングラフ生成(3DSGG)は、3D空間内のオブジェクトとそれらの関係を構造化されたグラフとして表現する技術であり、空間認識のためのコンパクトな抽象化を提供します。ロボットやドローンなどの実装知能が同じ3Dシーンを異なる視点から観察する場合、カメラがヨー回転(水平面での回転)によって視点が変わります。しかし従来の3DSGGモデルでは、こうした視点変化に対して関係予測が期待される変換動作に従わないという問題が生じています。
この問題は、述語レベルの変換異質性という経験的な不一致に起因しています。「左」「前」「右」「後ろ」といった方向述語は観察フレームとともに変換されるべき一方で、「立っている」「付着している」といった接触・支持・意味的述語はほぼ安定していることが期待されます。この不一致を軽減するために、研究者たちは変換認識型デカップリング(TAD)を提案しました。これは述語の変換動作に応じて関係推論を分離し、視点に安定したオブジェクト表現によって支持されるフレームワークです。
TADは関係推論を2つの部分に分解します。一つは視点間で安定すべき手がかりを学習し、もう一つは観察フレームとともに変わるべき方向性手がかりを学習します。これら2つの部分はその後、標準的な多ラベル述語予測のために統合されます。変換固有の記述子とグループ認識補助監督により、2つのブランチは相補的な関係手がかりを捉えることが促されます。
3DSSGベンチマーク上での広範な実験により、TADは学習時の回転増強なしにヨー視点変化に対する最先端のロバスト性を実現し、標準ベンチマーク下での競争力のあるパフォーマンスを維持することが示されました。