Gemini API、Flex・Priority inference tier を追加し service_tier でルーティング可能に

Gemini API に Flex と Priority の inference tier が追加され、同一の同期エンドポイント上で service_tier を指定して背景寄りのジョブを Flex、対話寄りのジョブを Priority に振り分けられるようになった。エージェント用途の拡大に伴い、高トラフィックのバックグラウンド処理とチャットボット・copilot など即応が要る対話処理を、従来は標準の同期 serving と非同期 Batch API の二系統に分けて設計しがちだったが、そのギャップを埋め、非同期ジョブ管理を増やさずに用途別のコストと信頼性のトレードオフを選べる構成に寄せる狙い。

#料金

tier 間の関係は最適化ドキュメントの表どおりで、Flex は Standard の 50% ディスカウント、Priority は Standard より 75〜100% 高いレート帯とされている。いずれもトークン課金。Gemini API pricing に記載。

以下はGemini 3.1 Pro Previewの例：

Tier	入力（プロンプト ≤200k / >200k）	出力（思考トークン含む、同左）
Standard	`$2.00` / `$4.00`	`$12.00` / `$18.00`
Flex	`$1.00` / `$2.00`	`$6.00` / `$9.00`
Priority	`$3.60` / `$7.20`	`$21.60` / `$32.40`

#料金

#参考文献