arXiv (CV)AI
SANA-Streaming:ハイブリッド拡散トランスフォーマーを用いたリアルタイムストリーミングビデオ編集
SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
ライブ配信やゲームなどのインタラクティブなアプリケーションにおいて、リアルタイムでビデオを編集する技術の需要が高まっています。しかし、時間的一貫性と高速な推論処理という厳しい要件を同時に満たすことは、従来のアプローチでは困難でした。このたび発表されたSANA-Streamingは、消費者向けGPU上で高解像度のリアルタイムストリーミングビデオ編集を実現するために、システムとアルゴリズムを統合的に設計した革新的なフレームワークです。
このシステムの核となるのは、3つの主要な設計原理です。まず、ハイブリッド拡散トランスフォーマーアーキテクチャでは、一部のブロックにソフトマックス注意機構を導入し、線形層の効率性を維持しながらローカル領域のモデリング能力を向上させています。次に、サイクル逆正則化という新しい訓練戦略により、生成されたコンテンツから元のフレームを予測するフロー整合を通じてセマンティック一貫性を強制し、対になった長編集ビデオを必要とせずに時間的一貫性を改善しています。さらに、融合GDNカーネルとNVIDIA Blackwell(RTX 5090)アーキテクチャに最適化された混合精度量子化により、テンサーコアの利用率を最大化しながら生成品質を維持する効率的なシステム統合を実現しています。
実装の結果、単一のRTX 5090 GPU上で、1280×704解像度のビデオ編集をエンドツーエンドで24フレーム毎秒のリアルタイム処理が可能となり、DiTコアは58フレーム毎秒で動作します。この統合設計アプローチにより、既存の最先端手法と比べて時間的一貫性とシステムスループット双方で大幅な性能向上を達成しており、インタラクティブなビデオ編集の実用化に向けた大きな前進を示しています。