Asayomu Tech
注目huggingface_papers2

LVSA:学習不要スパースアテンションで長尺動画生成を最大3.33倍高速化

要約

長尺動画拡散モデルにおけるデンス自己アテンションの計算コスト問題に対処するため、学習不要のスパースアテンション手法「LVSA(Long Video Sparse Attention)」が提案された。構造化ウィンドウパターンと回転グローバルアンカーを組み合わせることで、長距離時間アーティファクトの原因となる固定グリッドバイアスを排除する。FlashInferカーネルと組み合わせると、Wan 2.1 14Bで最大2.98倍、HunyuanVideo 1.5で最大3.33倍の計算削減を達成し、NPU環境でもWan 2.2 A14Bで最大2.71倍の高速化を実現している。また、ループ動画の品質評価を適切にスコアリングする評価ツール「VQeval」も合わせて公開されている。

あなたへの影響

動画生成AIをプロダクションに組み込んでいるチームにとって、学習不要で3倍超の推論高速化は大きなコスト削減機会となる。

推奨:NPU対応も確認されており、次のスプリントで既存パイプラインへの適用可能性を評価する価値がある。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。