arXiv (ML)AI
TITLE_JA: GPU アーキテクチャ全体における3次元生成拡散モデルの性能分析と最適化
Performance Analysis and Optimization of 3D Generative Diffusion Models across GPU Architectures
この記事についてAIに質問する →
日本語要約青い用語にマウスを合わせると解説が表示されます
拡散モデルは高忠実度の3次元MRI合成において不可欠な技術となっていますが、その実運用は数百回のU-Net評価と極めて不均質なカーネル動作に起因する膨大なGPUリソース需要によって制約されています。本研究では、最先端の医療用拡散モデルであるMed-DDPMについて、NVIDIAの3世代のGPUアーキテクチャ全体にわたる包括的な性能分析を実施しました。この分析ではカーネルレベルの実行時間分解、命令ミックス特性、メモリシステムの利用状況、ワープレベルのアクティビティ、およびプロファイラの優先度スコア推定値を調査しています。
研究の結果、訓練はcuDNNの畳み込みおよび陰的GEMMカーネルに圧倒的に支配されており、メモリアクセスパターン、テンソルレイアウト変換、およびテンソルコア利用率の限定的な使用に起因する非効率性が存在することが明らかになりました。これらの知見に基づき、研究チームはTF32テンソルコアの活性化と3次元チャネルラストレイアウトという2つのアーキテクチャ対応最適化を評価しました。
その結果、これらの最適化によりA100上でSMサイクルを最大100倍削減し、動的命令を100倍削減し、テンソルコア利用率を1.45倍から9.98倍に向上させ、IPCを7%増加させることができました。重要なことに、これらの改善はすべて合成品質を低下させることなく達成されています。本研究は医療画像合成における拡散モデルの実用的な運用を加速させる上で、ハードウェアレベルの最適化がいかに重要であるかを示唆しています。