arXiv (CV)AI
TITLE_JA: LEAP:Vision Transformer知識蒸留のための層スキップ効率化と適応的進行学習
LEAP: Layer-skipping Efficiency via Adaptive Progression for Vision Transformer Distillation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
Vision FoundationモデルはDINOv2などのVision Transformerバックボーンを搭載し、物体認識やセマンティックセグメンテーションといった下流タスクで必須の役割を果たしています。しかし、これらのバックボーンの膨大な計算量は、エッジデバイスへの配置を困難にしており、より小規模なアーキテクチャへの知識蒸留が必要とされています。従来のフィーチャーベース知識蒸留では、教師と生徒間の能力格差により、生徒モデルが教師の複雑なフィーチャーマップを十分に模倣できないという問題が生じていました。
この課題に対処するため、研究者らはLEAP(Layer-skipping Efficiency via Adaptive Progression)を提案しました。このアプローチは、ViT知識蒸留用の訓練カリキュラムで、教師モデルの中間層フィーチャーマップを段階的に難度を上げていく学習対象として活用します。このカリキュラムにより、生徒モデルはまず基礎的な表現を構築してから、より高度な抽象概念に取り組むことが可能になります。
実験結果は、この手法の有効性を示しています。LEAPで蒸留されたViT-SはImageNet-100で90.1%の精度を達成し、ベースラインと比べて12.24%の改善を実現しました。ImageNet-1Kでは、インスタンス検索タスクにおいてOxfordおよびParisデータセットで、それぞれ3.84%と7.75%の改善が得られています。さらに、訓練初期段階での教師推論に早期停止を実装することで、ImageNet-100の訓練FLOPsを25.1%削減し、訓練時間を21%短縮することに成功しました。