注目huggingface_papers2分
MiniMax Sparse Attention、100万トークンで注意計算28.4倍削減
30秒で把握
- 1MiniMaxがMSAを発表・1Mトークンで注意計算コスト28.4倍削減
- 2H800上でprefill 14.2倍・デコード7.6倍の実時間高速化を達成
- 3GQAと同等精度を維持しつつ広範なGPUへの展開を想定した設計
要約
MiniMaxは、超長コンテキスト向けのブロック単位スパースアテンション手法「MSA(MiniMax Sparse Attention)」を発表した。GQAをベースにIndex Branchが Key-ValueブロックをスコアリングしてグループごとにTop-kを選択、必要なブロックのみで正確なスパースアテンションを実行する。1Mトークンのコンテキストで、109BパラメータのマルチモーダルモデルにおいてGQA比28.4倍の注意計算量削減を達成し、H800 GPU上でprefillが14.2倍、デコードが7.6倍の実時間高速化を実現した。二次計算コストの問題を解消しながらGQAと同等の精度を維持し、幅広いGPUへの展開を想定したシンプルな設計が特徴となっている。
あなたへの影響
100万トークン規模のコンテキストを現実的なコストで扱いたいチームにとって、既存GQAベースのモデルに組み込める実装が公開されたことで検証のハードルが下がった。
推奨:次のスプリントでMSAカーネルをベンチマーク環境に組み込み、自チームのユースケース(エージェント・リポジトリ規模コード推論)での削減効果を確認することを推奨する。