Asayomu Tech
最重要deepmind1

Google DeepMind、Gemma 4 12B公開 エンコーダ不要のマルチモーダルモデル

30秒で把握

  • 1Google DeepMindがGemma 4 12B公開・16GB VRAMでローカル動作・音声入力初対応
  • 226B MoEに匹敵する性能をメモリ半分以下で実現・Apache 2.0ライセンス
  • 3エンコーダ不要の統合アーキテクチャ採用・MTPドラフタでレイテンシ削減

要約

Google DeepMindはGemma 4 12Bを公開した。エンコーダを持たない統合アーキテクチャで、視覚・音声入力をLLMバックボーンに直接流し込む初のミッドサイズモデルだ。16GBのVRAMまたは統合メモリで動作し、コンシューマ向けラップトップ上でローカル実行が可能となる。ベンチマーク性能は上位の26B MoEモデルに匹敵しながら、総メモリフットプリントは半分以下に収まる。

あなたへの影響

ローカルLLMを本番エージェントや組み込みアプリに活用しているチームは、16GB VRAM環境でのマルチモーダル・音声対応が即日検証できるため、今スプリントでベンチマークと既存パイプラインへの組み込み評価を開始すべき。

推奨:Apache 2.0ライセンスのため商用利用の法的確認コストも低く、PoC着手のハードルは非常に低い。

詳細を読む → 元記事へ※ 本文は元記事をご確認ください (asayomu は要約のみ提供)

※ 外部記事の権利は原著作者に帰属します。著作権削除要請は copyright@asayomu.jp までご連絡ください(受領確認 24h・実処理 72h 以内)。