Gemma 4
Google は、Gemini 3 と同系の研究・技術をベースにしたオープン重みの Gemma 4 ファミリーを公開した。商用利用可能な Apache 2.0 で、実効 2B(E2B)、実効 4B(E4B)、総 26B・活性約 4B の MoE(26B A4B)、31B Dense の 4 サイズである。エージェント向けに function calling、構造化 JSON、ネイティブなシステム指示を扱い、可変解像度の動画・画像をネイティブ処理する。E2B と E4B はネイティブ音声入力にも対応する。コンテキストはエッジ系 128K、31B と 26B A4B は 256K とされる。
重みは Hugging Face・Kaggle・Ollama から配布され、Google AI Studio では 31B と 26B MoE、AI Edge Gallery では E4B と E2B の試用が案内されている。Vertex AI・Cloud Run・GKE 経由の本番利用や、vLLM・llama.cpp・MLX などローカル推論スタック向けの初日対応もセットで示されている。非量子化 bfloat16 の 31B は単一の 80GB NVIDIA H100 GPU に収まる想定で、量子化版はコンシューマ GPU 上の IDE・コーディング支援・エージェント用途を想定している。
性能
| モデル | Intelligence Index | 出力速度 (tok/s) | 推論 | 公称コンテキスト |
|---|---|---|---|---|
| Claude Sonnet 4.6(非推論、High Effort) | 44 | 43.1 | なし | 約 100 万トークン |
| Qwen3.5 27B (Reasoning) | 42 | 87.1 | あり | 約 262k トークン |
| Gemma 4 31B (Reasoning) | 39 | 35.8 | あり | 約 256k トークン |
| Gemma 4 26B A4B (Reasoning) | 31 | 要確認 | あり | 約 256k トークン |
| Gemini 2.5 Flash(非推論) | 21 | 191.8 | なし | 約 100 万トークン |
| GPT-4o(Nov ‘24) | 17 | 105.7 | なし | 約 128k トークン |
第三者指数では推論ありのオープン重みとしては Qwen3.5 27B や Sonnet 4.6 より下だが、GPT-4o や Gemini 2.5 Flash(非推論)より高い帯にある。
API 価格の比較
| モデル | 入力 ($/1M) | 出力 ($/1M) |
|---|---|---|
| Gemma 4 31B (Reasoning) | 0.14 | 0.40 |
| Gemma 4 26B A4B (Reasoning) | 0.13 | 0.40 |
| Qwen3.5 27B (Reasoning) | 0.30 | 2.40 |
| Gemini 2.5 Flash(非推論) | 0.30 | 2.50 |
| GPT-4o(Nov ‘24) | 2.50 | 10.00 |
| Claude Sonnet 4.6(非推論、High Effort) | 3.00 | 15.00 |
入力・出力の従量単価は表内で最も低く、とくに出力では Qwen や Flash・クローズド系と差が開いている。