注目huggingface_papers2026年6月13日2分

MiniMax Sparse Attention、100万トークンで注意計算28.4倍削減

30秒で把握

1MiniMaxがMSAを発表・1Mトークンで注意計算コスト28.4倍削減
2H800上でprefill 14.2倍・デコード7.6倍の実時間高速化を達成
3GQAと同等精度を維持しつつ広範なGPUへの展開を想定した設計

要約

MiniMaxは、超長コンテキスト向けのブロック単位スパースアテンション手法「MSA（MiniMax Sparse Attention）」を発表した。GQAをベースにIndex Branchが Key-ValueブロックをスコアリングしてグループごとにTop-kを選択、必要なブロックのみで正確なスパースアテンションを実行する。1Mトークンのコンテキストで、109BパラメータのマルチモーダルモデルにおいてGQA比28.4倍の注意計算量削減を達成し、H800 GPU上でprefillが14.2倍、デコードが7.6倍の実時間高速化を実現した。二次計算コストの問題を解消しながらGQAと同等の精度を維持し、幅広いGPUへの展開を想定したシンプルな設計が特徴となっている。

あなたへの影響

100万トークン規模のコンテキストを現実的なコストで扱いたいチームにとって、既存GQAベースのモデルに組み込める実装が公開されたことで検証のハードルが下がった。

推奨：次のスプリントでMSAカーネルをベンチマーク環境に組み込み、自チームのユースケース（エージェント・リポジトリ規模コード推論）での削減効果を確認することを推奨する。

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)