注目★★★★★Hacker News2026年7月5日

GLM5.2が AMD MI355X で 2x以上安い推論コスト、エンジニアが最適化で実証

30秒で把握

1AMD MI355X で GLM5.2 を最適化・2626 tok/s/node、Blackwell 比 2 倍以上低コスト実現
2MXFP4 量子化と sglang フレームワーク選定、投機デコード ROCm バグ修正で実現・カスタムカーネル不要
3CUDA 優位性が消滅・AMD での SOTA はソフトウェアサポート次第に転換・推論コスト最適化チームが検証推奨

要約

Wafer は GLM5.2 を AMD MI355X で 2626 tok/s/node のスループットと 213 tok/s の単一ストリーム性能を達成し、NVIDIA Blackwell 比 2 倍以上低いコストで実現した。AMD GPU は Blackwell の 2.75 倍安価だが、ソフトウェアサポートの遅れから最新モデルの日 0 最適化が難しく、NVIDIA に後れを取るのが課題だった。エンジニアが量子化 (MXFP4) とフレームワーク選定 (sglang) を最適化し、投機デコード有効化に必要な ROCm ガード 2 つを修正することで、フレームワーク層の問題だけで最高のコスト効率を実現できることを実証した。NVIDIA の CUDA アドバンテージは消え、AMD での SOTA 達成は今やソフトウェアサポート次第の課題に転換しつつある。

あなたへの影響

この記事が日本のエンジニアに与える影響と、今日取るべきアクションは、Personal会員向けに掲載しています。

7日間無料で読む

クレカ不要・いつでも解約

詳細を読む → 元記事へ

X で共有

※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

GLM5.2が AMD MI355X で 2x以上安い推論コスト、エンジニアが最適化で実証

30秒で把握

要約

あなたへの影響

関連する記事

Claude 3.7 Sonnet、考える時間を自由に調整・思考プロセス可視化

Claude Fable 5、7月限定で無料アクセス開放—Pro/Max/Team プラン対象

Claude Fable 5・Mythos 5、輸出規制解除で復旧・7月1日グローバル再開