注目★★★★★Hacker News
GLM5.2が AMD MI355X で 2x以上安い推論コスト、エンジニアが最適化で実証
30秒で把握
- 1AMD MI355X で GLM5.2 を最適化・2626 tok/s/node、Blackwell 比 2 倍以上低コスト実現
- 2MXFP4 量子化と sglang フレームワーク選定、投機デコード ROCm バグ修正で実現・カスタムカーネル不要
- 3CUDA 優位性が消滅・AMD での SOTA はソフトウェアサポート次第に転換・推論コスト最適化チームが検証推奨
要約
Wafer は GLM5.2 を AMD MI355X で 2626 tok/s/node のスループットと 213 tok/s の単一ストリーム性能を達成し、NVIDIA Blackwell 比 2 倍以上低いコストで実現した。AMD GPU は Blackwell の 2.75 倍安価だが、ソフトウェアサポートの遅れから最新モデルの日 0 最適化が難しく、NVIDIA に後れを取るのが課題だった。エンジニアが量子化 (MXFP4) とフレームワーク選定 (sglang) を最適化し、投機デコード有効化に必要な ROCm ガード 2 つを修正することで、フレームワーク層の問題だけで最高のコスト効率を実現できることを実証した。NVIDIA の CUDA アドバンテージは消え、AMD での SOTA 達成は今やソフトウェアサポート次第の課題に転換しつつある。
あなたへの影響
この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。
クレカ不要・いつでも解約