Asayomu Tech
注目huggingface_papers2

MiniMax Sparse Attention、100万トークンで注意計算28.4倍削減

30秒で把握

  • 1MiniMaxがMSAを発表・1Mトークンで注意計算コスト28.4倍削減
  • 2H800上でprefill 14.2倍・デコード7.6倍の実時間高速化を達成
  • 3GQAと同等精度を維持しつつ広範なGPUへの展開を想定した設計

要約

MiniMaxは、超長コンテキスト向けのブロック単位スパースアテンション手法「MSA(MiniMax Sparse Attention)」を発表した。GQAをベースにIndex Branchが Key-ValueブロックをスコアリングしてグループごとにTop-kを選択、必要なブロックのみで正確なスパースアテンションを実行する。1Mトークンのコンテキストで、109BパラメータのマルチモーダルモデルにおいてGQA比28.4倍の注意計算量削減を達成し、H800 GPU上でprefillが14.2倍、デコードが7.6倍の実時間高速化を実現した。二次計算コストの問題を解消しながらGQAと同等の精度を維持し、幅広いGPUへの展開を想定したシンプルな設計が特徴となっている。

あなたへの影響

100万トークン規模のコンテキストを現実的なコストで扱いたいチームにとって、既存GQAベースのモデルに組み込める実装が公開されたことで検証のハードルが下がった。

推奨:次のスプリントでMSAカーネルをベンチマーク環境に組み込み、自チームのユースケース(エージェント・リポジトリ規模コード推論)での削減効果を確認することを推奨する。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。