arXiv (ML)AI

MacArena：オンラインmacOS環境でコンピュータ使用エージェントをベンチマーク評価

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

2026年6月8日 04:001👍 0 👎 0（高評価率 -）シェア

日本語要約青い用語にマウスを合わせると解説が表示されます

コンピュータユーザーインターフェース（GUI）を自動操作するAIエージェント（CUA）の性能評価は、機械学習の分野で急速に重要性を増しています。視覚認識と制御機能を備えたこれらのエージェントは、OSWorldなどの標準化されたオンラインベンチマークによって評価・訓練されてきました。しかし、macOSプラットフォームに関しては大きな評価ギャップが存在していました。既存のmacOSベンチマークであるmacOSWorldは、Apple純正アプリケーションの限定的なセットのみをカバーし、x86仮想マシン上で動作するため、Apple Siliconチップとの互換性がありませんでした。この課題に対応するため、研究チームはMacArenaというベンチマークを開発しました。このベンチマークは50個のアプリケーションにおける421の手動検証済みタスクで構成されており、OSWorldの移植版タスク、macOSWorldから調達したコンテンツ、そして49個の新規macOS固有タスクを統合しています。Apple Siliconネイティブの仮想化フレームワーク上で動作する設計になっています。重要な発見として、macOSはLinuxベースのベンチマークでは捉えられない独特なGUIの課題を提示することが判明しました。評価結果から、既存ベンチマークで高性能を示すモデルも、実際には特定のタスク分布への適応に過ぎず、真のクロスプラットフォームGUI能力は備えていないことが明らかになりました。特に注目すべきは、モデルのランキングが移植タスクとmacOS固有タスクで逆転し、最高性能とされるモデルでもMacArenaのサブセットで26%以上の性能低下が見られたことです。これはmacOSが現在のGUIエージェントにとって、実質的により難易度の高い環境であることを示唆しています。

元記事を読む（英語）Xでシェア

AI Investment News

AI Investment News

MacArena：オンラインmacOS環境でコンピュータ使用エージェントをベンチマーク評価

日本語要約青い用語にマウスを合わせると解説が表示されます