Gemma 4 - ohiruneuni/blog

Google は、Gemini 3 と同系の研究・技術をベースにしたオープン重みの Gemma 4 ファミリーを公開した。商用利用可能な Apache 2.0 で、実効 2B（E2B）、実効 4B（E4B）、総 26B・活性約 4B の MoE（26B A4B）、31B Dense の 4 サイズである。エージェント向けに function calling、構造化 JSON、ネイティブなシステム指示を扱い、可変解像度の動画・画像をネイティブ処理する。E2B と E4B はネイティブ音声入力にも対応する。コンテキストはエッジ系 128K、31B と 26B A4B は 256K とされる。

重みは Hugging Face・Kaggle・Ollama から配布され、Google AI Studio では 31B と 26B MoE、AI Edge Gallery では E4B と E2B の試用が案内されている。Vertex AI・Cloud Run・GKE 経由の本番利用や、vLLM・llama.cpp・MLX などローカル推論スタック向けの初日対応もセットで示されている。非量子化 bfloat16 の 31B は単一の 80GB NVIDIA H100 GPU に収まる想定で、量子化版はコンシューマ GPU 上の IDE・コーディング支援・エージェント用途を想定している。

#性能

モデル	Intelligence Index	出力速度 (tok/s)	推論	公称コンテキスト
Claude Sonnet 4.6（非推論、High Effort）	44	43.1	なし	約 100 万トークン
Qwen3.5 27B (Reasoning)	42	87.1	あり	約 262k トークン
Gemma 4 31B (Reasoning)	39	35.8	あり	約 256k トークン
Gemma 4 26B A4B (Reasoning)	31	要確認	あり	約 256k トークン
Gemini 2.5 Flash（非推論）	21	191.8	なし	約 100 万トークン
GPT-4o（Nov ‘24）	17	105.7	なし	約 128k トークン

第三者指数では推論ありのオープン重みとしては Qwen3.5 27B や Sonnet 4.6 より下だが、GPT-4o や Gemini 2.5 Flash（非推論）より高い帯にある。

#API 価格の比較

モデル	入力 ($/1M)	出力 ($/1M)
Gemma 4 31B (Reasoning)	0.14	0.40
Gemma 4 26B A4B (Reasoning)	0.13	0.40
Qwen3.5 27B (Reasoning)	0.30	2.40
Gemini 2.5 Flash（非推論）	0.30	2.50
GPT-4o（Nov ‘24）	2.50	10.00
Claude Sonnet 4.6（非推論、High Effort）	3.00	15.00

入力・出力の従量単価は表内で最も低く、とくに出力では Qwen や Flash・クローズド系と差が開いている。

#性能

#API 価格の比較

#参考文献