448文字
2分
編集

Gemma 4

Google は、Gemini 3 と同系の研究・技術をベースにしたオープン重みの Gemma 4 ファミリーを公開した。商用利用可能な Apache 2.0 で、実効 2B(E2B)、実効 4B(E4B)、総 26B・活性約 4B の MoE(26B A4B)、31B Dense の 4 サイズである。エージェント向けに function calling、構造化 JSON、ネイティブなシステム指示を扱い、可変解像度の動画・画像をネイティブ処理する。E2B と E4B はネイティブ音声入力にも対応する。コンテキストはエッジ系 128K、31B と 26B A4B は 256K とされる。

重みは Hugging Face・Kaggle・Ollama から配布され、Google AI Studio では 31B と 26B MoE、AI Edge Gallery では E4B と E2B の試用が案内されている。Vertex AI・Cloud Run・GKE 経由の本番利用や、vLLM・llama.cpp・MLX などローカル推論スタック向けの初日対応もセットで示されている。非量子化 bfloat16 の 31B は単一の 80GB NVIDIA H100 GPU に収まる想定で、量子化版はコンシューマ GPU 上の IDE・コーディング支援・エージェント用途を想定している。

#性能

モデルIntelligence Index出力速度 (tok/s)推論公称コンテキスト
Claude Sonnet 4.6(非推論、High Effort)4443.1なし約 100 万トークン
Qwen3.5 27B (Reasoning)4287.1あり約 262k トークン
Gemma 4 31B (Reasoning)3935.8あり約 256k トークン
Gemma 4 26B A4B (Reasoning)31要確認あり約 256k トークン
Gemini 2.5 Flash(非推論)21191.8なし約 100 万トークン
GPT-4o(Nov ‘24)17105.7なし約 128k トークン

第三者指数では推論ありのオープン重みとしては Qwen3.5 27B や Sonnet 4.6 より下だが、GPT-4o や Gemini 2.5 Flash(非推論)より高い帯にある。

#API 価格の比較

モデル入力 ($/1M)出力 ($/1M)
Gemma 4 31B (Reasoning)0.140.40
Gemma 4 26B A4B (Reasoning)0.130.40
Qwen3.5 27B (Reasoning)0.302.40
Gemini 2.5 Flash(非推論)0.302.50
GPT-4o(Nov ‘24)2.5010.00
Claude Sonnet 4.6(非推論、High Effort)3.0015.00

入力・出力の従量単価は表内で最も低く、とくに出力では Qwen や Flash・クローズド系と差が開いている。

#参考文献