arXiv (ML)AI
自動化パイプライン探索による4専門家ヘテロジニアスMixture-of-Expertsアーキテクチャの体系的探索
Systematic Exploration of 4-Expert Heterogeneous Mixture-of-Experts via Automated Pipeline Search
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
機械学習モデルの設計を自動化する新しい研究が発表されました。この研究は、LEMUR神経ネットワークデータセット生態系内で、ヘテロジニアスな4専門家Mixture-of-Experts(MoE4)アーキテクチャを大規模に探索するための自動化パイプラインを提案しています。従来は手作業で設計されていたMoEリファレンスモデルを改善し、決定論的なコード生成器を用いてLEMURデータベースの基本アーキテクチャファミリーをMoE4アンサンブルに体系的に組み合わせています。各アンサンブルは温度スケーリング、mixup拡張、コサイン退火学習率スケジューリングを備えた畳み込みゲーティングネットワークで管理されます。
28日間のNVIDIA RTX 4090での大規模キャンペーンでは、197バッチにわたって4,463個の候補モデルが生成され、このうち1,021モデルが正常に評価されました。興味深い発見として、反復的な組み合わせによるアルファベット列挙のため、探索された検索空間(理論上の23,751個の可能な4ファミリー組み合わせの4.8%)全体がAirNetという単一のファミリーに固定されていることが明らかになりました。研究チームはこのカバレッジバイアスを正確に特性化し、ジェネレータの根本原因を特定し、層別ランダムサンプリングによる修正を提案しています。
AirNetアンカーの範囲内では、ShuffleNetとMobileNetV3が一貫して最高精度のアンサンブルを生成し、平均精度が0.632に達しています。一方、FractalNetとMNASNetは低収率ファミリーとして特定され、将来のキャンペーンからの除外が推奨されています。このパイプライン、分析成果物、および修正されたジェネレータは、オープンソースプロジェクトNNGPTの一部としてGitHubで公開されています。