[huggingface.co]📊 データ・論文★★★★★
VibeThinker-3B、3Bパラメータで DeepSeek V3.2 超えの推論性能を達成
編集部まとめ
- VibeThinker-3B が AIME26 94.3点・LiveCodeBench Pass@1 80.2 を記録
- DeepSeek V3.2・GLM-5・Gemini 3 Pro と同等以上・IFEval 93.4 点で命令制御性も維持
- 検証可能推論は小型コアに圧縮可能とする Parametric Compression-Coverage 仮説を提唱
VibeThinker-3Bは3Bパラメータのコンパクトモデルで、小規模モデルにおける検証可能推論の限界を探求する技術報告として公開された。AIME26で94.3点(テスト時スケーリング適用で97.1点)、LiveCodeBench v6でPass@1 80.2、未公開LeetCodeコンテストで96.1%の正答率を記録した。これらの結果は、桁違いに大規模なDeepSeek V3.2・GLM-5・Gemini 3 Proと同等以上の性能であることを示す。さらにIFEvalで93.4点を取得し、推論強化が命令制御性を損なわないことも確認した。この成果は「検証可能推論はコンパクトな推論コアに圧縮できる」とするParametric Compression-Coverage仮説を支持する。
編集部の影響度コメント
3Bパラメータで大規模フラグシップモデルに匹敵する推論性能が実証されたことで、エッジデバイスや低コスト推論環境での高度な推論タスク適用が現実的な選択肢になり得る。カリキュラムSFT・多ドメインRL・オフライン自己蒸留からなるトレーニングパイプラインは、独自の小型推論モデル構築の参考実装として評価する価値がある。