注目huggingface_papers2分
LVSA:学習不要スパースアテンションで長尺動画生成を最大3.33倍高速化
要約
長尺動画拡散モデルにおけるデンス自己アテンションの計算コスト問題に対処するため、学習不要のスパースアテンション手法「LVSA(Long Video Sparse Attention)」が提案された。構造化ウィンドウパターンと回転グローバルアンカーを組み合わせることで、長距離時間アーティファクトの原因となる固定グリッドバイアスを排除する。FlashInferカーネルと組み合わせると、Wan 2.1 14Bで最大2.98倍、HunyuanVideo 1.5で最大3.33倍の計算削減を達成し、NPU環境でもWan 2.2 A14Bで最大2.71倍の高速化を実現している。また、ループ動画の品質評価を適切にスコアリングする評価ツール「VQeval」も合わせて公開されている。
あなたへの影響
動画生成AIをプロダクションに組み込んでいるチームにとって、学習不要で3倍超の推論高速化は大きなコスト削減機会となる。
推奨:NPU対応も確認されており、次のスプリントで既存パイプラインへの適用可能性を評価する価値がある。