Asayomu Tech
注目★★★★Hacker News

GLM5.2が AMD MI355X で 2x以上安い推論コスト、エンジニアが最適化で実証

30秒で把握

  • 1AMD MI355X で GLM5.2 を最適化・2626 tok/s/node、Blackwell 比 2 倍以上低コスト実現
  • 2MXFP4 量子化と sglang フレームワーク選定、投機デコード ROCm バグ修正で実現・カスタムカーネル不要
  • 3CUDA 優位性が消滅・AMD での SOTA はソフトウェアサポート次第に転換・推論コスト最適化チームが検証推奨

要約

Wafer は GLM5.2 を AMD MI355X で 2626 tok/s/node のスループットと 213 tok/s の単一ストリーム性能を達成し、NVIDIA Blackwell 比 2 倍以上低いコストで実現した。AMD GPU は Blackwell の 2.75 倍安価だが、ソフトウェアサポートの遅れから最新モデルの日 0 最適化が難しく、NVIDIA に後れを取るのが課題だった。エンジニアが量子化 (MXFP4) とフレームワーク選定 (sglang) を最適化し、投機デコード有効化に必要な ROCm ガード 2 つを修正することで、フレームワーク層の問題だけで最高のコスト効率を実現できることを実証した。NVIDIA の CUDA アドバンテージは消え、AMD での SOTA 達成は今やソフトウェアサポート次第の課題に転換しつつある。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

関連する記事

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。