Gemini API、Flex・Priority inference tier を追加し service_tier でルーティング可能に
Gemini API に Flex と Priority の inference tier が追加され、同一の同期エンドポイント上で service_tier を指定して背景寄りのジョブを Flex、対話寄りのジョブを Priority に振り分けられるようになった。エージェント用途の拡大に伴い、高トラフィックのバックグラウンド処理とチャットボット・copilot など即応が要る対話処理を、従来は標準の同期 serving と非同期 Batch API の二系統に分けて設計しがちだったが、そのギャップを埋め、非同期ジョブ管理を増やさずに用途別のコストと信頼性のトレードオフを選べる構成に寄せる狙い。
料金
tier 間の関係は最適化ドキュメントの表どおりで、Flex は Standard の 50% ディスカウント、Priority は Standard より 75〜100% 高いレート帯とされている。いずれもトークン課金。Gemini API pricing に記載。
以下はGemini 3.1 Pro Previewの例:
| Tier | 入力(プロンプト ≤200k / >200k) | 出力(思考トークン含む、同左) |
|---|---|---|
| Standard | $2.00 / $4.00 | $12.00 / $18.00 |
| Flex | $1.00 / $2.00 | $6.00 / $9.00 |
| Priority | $3.60 / $7.20 | $21.60 / $32.40 |