arXiv (Robotics)AI
ロボット血管造影ガイドワイヤ操作における視覚言語推論に基づく文脈認識型報酬モデリング
Vision-Language Procedural Reasoning for Context-Aware Reward Modeling of Robotic Endovascular Guidewire Navigation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ロボット支援血管内治療において、複雑で患者固有の血管解剖学的構造内での正確かつ安定したガイドワイヤ操作は極めて重要な課題です。従来の自動操作方法は静的な報酬関数に依存しており、解剖学的文脈や作業進行状況に関する明示的な手続き的推論が欠けていました。本研究は、マルチモーダル大規模言語モデル(MLLM)を活用した視覚言語手続き推論(VL-PR)フレームワークを提案することで、この課題に対処します。
VL-PRフレームワークは、リアルタイム視覚情報を解釈して高度なナビゲーション文脈を推定するMLLMを手続き推論モジュールとして統合しています。従来のように低レベルの制御コマンドを直接生成するのではなく、推定された手続き的インサイトが異なるナビゲーション段階における報酬成分の重要度を動的に調整することで、文脈に応じた報酬適応を実現します。この手法により、単一のポリシーで競合する目標を解決し、複雑な遷移を処理しながらも、グローバルなタスク目標の一貫性を保つことが可能になります。
物理的なロボットプラットフォームを用いた多様な血管シナリオでの実験では、静的報酬方式を上回るタスク信頼性の向上とナビゲーション効率の合理化が実証されました。本研究は複雑かつマルチタスク対応のロボット血管内治療に対する拡張可能なソリューションとなり、医療ロボティクス分野における実用的な進展をもたらす可能性があります。