最重要deepmind1分
Google DeepMind、Gemma 4 12B公開 エンコーダ不要のマルチモーダルモデル
30秒で把握
- 1Google DeepMindがGemma 4 12B公開・16GB VRAMでローカル動作・音声入力初対応
- 226B MoEに匹敵する性能をメモリ半分以下で実現・Apache 2.0ライセンス
- 3エンコーダ不要の統合アーキテクチャ採用・MTPドラフタでレイテンシ削減
要約
Google DeepMindはGemma 4 12Bを公開した。エンコーダを持たない統合アーキテクチャで、視覚・音声入力をLLMバックボーンに直接流し込む初のミッドサイズモデルだ。16GBのVRAMまたは統合メモリで動作し、コンシューマ向けラップトップ上でローカル実行が可能となる。ベンチマーク性能は上位の26B MoEモデルに匹敵しながら、総メモリフットプリントは半分以下に収まる。
あなたへの影響
ローカルLLMを本番エージェントや組み込みアプリに活用しているチームは、16GB VRAM環境でのマルチモーダル・音声対応が即日検証できるため、今スプリントでベンチマークと既存パイプラインへの組み込み評価を開始すべき。
推奨:Apache 2.0ライセンスのため商用利用の法的確認コストも低く、PoC着手のハードルは非常に低い。