arXiv (NLP)AI
PhoneHarness:GUI、CLI、ツール操作を組み合わせたスマートフォン自動化エージェントの実現
PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
スマートフォンを自動で操作するAIエージェントの研究が進む中、現在の多くのモバイルエージェント関連の研究には大きな課題がありました。既存の手法は主にGUI操作、つまり画面を観察してタップやスワイプを実行し、最終的な画面状態で評価するといったアプローチに依存していたのです。しかし実際のスマートフォン操作は、ただ画面を制御するだけではなく、より複雑で多層的なものです。
研究チームが発表したPhoneHarnessは、この課題に対処するための革新的なベンチマークと実行フレームワークです。このシステムの最大の特徴は、GUI操作、コマンドラインインターフェース(CLI)、そしてホスト側のツール操作という3つの異なるアクション方式を組み合わせられることにあります。PhoneHarnessは決定論的なアクションルーティングと制限されたGUI委譲を組み合わせることで、監査可能な実行追跡を実現しており、これによって実際に意図した副作用が生じたかどうかを検証できるようになっています。
PhoneHarness Benchという評価ベンチマークでは、エージェントが単に妥当な最終結果を出すだけでなく、実際に観測可能な副作用を伴ってタスクを完了できるかどうかを測定します。評価用の注釈付きデータセットでは、PhoneHarnessは75.0%のパス率を達成し、既存の手法を12.9ポイント上回る成果を示しました。この研究は、スマートフォン自動化の信頼性と安全性は、視覚的なGUI制御だけではなく、複数のアクション方式の統合的な活用と検証可能な実行体制によって初めて実現されるという重要な知見をもたらしています。