arXiv (ML)AI
MacArena:オンラインmacOS環境でコンピュータ使用エージェントをベンチマーク評価
MacArena: Benchmarking Computer Use Agents on an Online macOS Environment
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
コンピュータユーザーインターフェース(GUI)を自動操作するAIエージェント(CUA)の性能評価は、機械学習の分野で急速に重要性を増しています。視覚認識と制御機能を備えたこれらのエージェントは、OSWorldなどの標準化されたオンラインベンチマークによって評価・訓練されてきました。しかし、macOSプラットフォームに関しては大きな評価ギャップが存在していました。既存のmacOSベンチマークであるmacOSWorldは、Apple純正アプリケーションの限定的なセットのみをカバーし、x86仮想マシン上で動作するため、Apple Siliconチップとの互換性がありませんでした。
この課題に対応するため、研究チームはMacArenaというベンチマークを開発しました。このベンチマークは50個のアプリケーションにおける421の手動検証済みタスクで構成されており、OSWorldの移植版タスク、macOSWorldから調達したコンテンツ、そして49個の新規macOS固有タスクを統合しています。Apple Siliconネイティブの仮想化フレームワーク上で動作する設計になっています。
重要な発見として、macOSはLinuxベースのベンチマークでは捉えられない独特なGUIの課題を提示することが判明しました。評価結果から、既存ベンチマークで高性能を示すモデルも、実際には特定のタスク分布への適応に過ぎず、真のクロスプラットフォームGUI能力は備えていないことが明らかになりました。特に注目すべきは、モデルのランキングが移植タスクとmacOS固有タスクで逆転し、最高性能とされるモデルでもMacArenaのサブセットで26%以上の性能低下が見られたことです。これはmacOSが現在のGUIエージェントにとって、実質的により難易度の高い環境であることを示唆しています。