注目huggingface_papers2分
SwiftVR:RTX 5090で1080p/26FPSをリアルタイム達成した動画復元フレームワーク
30秒で把握
- 1SwiftVRがRTX 5090で1080p/26FPS・H100で4K/14FPSのリアルタイム動画復元を達成
- 2マスクなしシフトウィンドウ注意+軽量AEでメモリと遅延の双方を削減
- 3比較拡散ベースモデルは全て4Kでメモリ超過・コンシューマGPU展開は初の達成
要約
SwiftVRは、ライブ配信向けのリアルタイム動画復元を実現するワンステップ生成フレームワークで、コンシューマGPU上での展開を阻む2つのボトルネックを解消した。マスクなしシフトウィンドウ自己アテンション機構により高解像度での二次計算コストを排除し、標準的な密SDPA呼び出しのみを用いるため再学習やカスタムカーネルなしで汎用GPUに転用できる。軽量なRestoration-aware Autoencoderによりチャンクワイズデコードをサポートし、H100では2560×1440で31FPS・3840×2160で14FPSを達成した。コンシューマ向けRTX 5090では1920×1080で26FPSを記録し、比較した拡散ベースの全ベースラインが4Kでメモリ上限を超える中、単独で動作した。
あなたへの影響
動画処理パイプラインにAI復元を組み込もうとしているチームは、専用ハードウェアなしにコンシューマGPUで1080pリアルタイム推論が実現できる可能性が生まれたため、次のスプリントでSwiftVRの公開実装を評価する価値がある。
推奨:カスタムカーネル不要でPyTorch標準演算のみで動作する点は、既存の推論インフラへの統合コストを大幅に下げ得る。