arXiv (Robotics)AI
自律農業ロボットの障害物検出を実現する教師なし学習型メモリ強化ビデオトランスフォーマー
Unsupervised Memory-Enhanced Video Transformers: Obstacle Detection for Autonomous Agricultural Rover
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
自律走行する農業ロボット(ローバー)は精密農業に欠かせない存在となっていますが、安全な運用を確保することは依然として大きな課題です。従来のLiDARなどのセンサーは植物の葉群下に位置する障害物を検出できず、重大なリスクをもたらします。カメラを用いた教師あり学習による物体検出手法も存在しますが、訓練データに含まれていない未知の障害物に対しては性能が低下してしまいます。
こうした課題に対して、本研究は教師なし異常検知という新たなアプローチを提案しています。環境における正常な視覚パターンを学習することで、異常な状況を検出するというコンセプトです。ただし、移動するロボットが撮影する動的シーンでは従来の異常検知手法が十分に機能しません。
本論文で紹介されるVideo Memory Transformers for Anomaly Detection(VMTAD)は、この課題を解決するため、トランスフォーマーベースのアーキテクチャに専用のメモリモジュールを組み合わせた完全教師なしの手法です。メモリモジュールは前フレームの符号化表現を処理することで時間的文脈を活用し、ロボットの移動による動的な変化に効果的に対応します。モデルは正常動作を示す画像のみで訓練され、データラベルは不要です。
Grillionという農業ローバーでの厳密な評価の結果、菜種畑のデータセットにおいてVMTADは最先端の性能を達成しました。検出の曲線下面積が0.973、セグメンテーションが0.997に達しています。軽量版は高精度とリアルタイム推論(14ミリ秒)のバランスを最適化しており、安全性に不可欠なロボットの停止距離分析によって検証されています。