arXiv (CV)AI
TITLE_JA: Sol Video Inference Engine:ビデオ生成の効率化を実現するエージェント対応フルスタック加速フレームワーク
Sol Video Inference Engine: Agent-Native Full-Stack Acceleration Framework for Efficient Video Generation
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
現代のビデオ拡散モデルは、スケーリングにより高品質な生成を実現する一方で、推論コストが大幅に増加するという課題を抱えている。これまで多くの加速手法が提案されてきたが、根本的な問題は、最適な加速戦略がインスタンスごとに大きく異なることである。特定のモデル・ハードウェア・推論設定の組み合わせで有効な手法が、別の組み合わせでは機能しない場合が多い。モデルのアーキテクチャや数値的な敏感性、注意集中パターンは種々異なり、推論設定では空間・時間解像度やビデオ長が変動し、ハードウェアプラットフォームはメモリ階層、対応する数値形式、カーネルスループットが異なるのだ。これらの要因により膨大な調整空間が生まれ、手動での性能最適化は極めて効率的でない。
新たに発表されたSol Video Inference Engineは、ビデオ拡散モデル向けのエージェント型、ネイティブ、訓練不要な加速フレームワークである。キャッシュ、スパース注意、トークンプルーニング、量子化、カーネル融合の5つの広く適用可能な技術を、インスタンス固有の最適化のためのエージェント型加速スタックに統合している。具体的な展開対象(モデル・ハードウェアプラットフォーム・サービング設定で定義)に対して、複数のスキルエージェントが各技術の実装を並列で最適化し、エージェント統合器がそれらをグローバル加速スタックに構成し、人間のバリデーターが生成品質についてフィードバックを提供する仕組みだ。
このワークフローは、異なるサイズとアーキテクチャを持つ3つのビデオモデルで実装された。64B Cosmos3-Super、22B LTX-2.3、2B SANA-Videoである。人間の努力をほとんど必要としながら、フルスタックは2倍以上のエンドツーエンド加速を実現し、同時にVBench品質をほぼロスレスで維持することに成功した。本研究はエージェントフレームワークがビデオ拡散モデルの加速において高い有効性を持つことを実証している。