Gemini API Batch Mode、50%割引で大量処理に対応
Google が Gemini API に Batch Mode を導入した。高スループット、レイテンシーが重要でないワークロード向けの新しい非同期エンドポイントで、同期 API と比較して 50%割引で提供される。
24 時間以内に結果を取得可能で、より高いレート制限を提供。複雑なクライアントサイドキューイングや再試行ロジックが不要。全リクエストを単一ファイルにパッケージ化し、ジョブを送信、完了後に結果を取得する簡単なワークフロー。
対応モデルは Gemini 2.5 Flash と Gemini 2.5 Pro。Google GenAI Python SDK で利用可能。
python
uploaded_batch_requests = client.files.upload(file="batch_requests.json")
batch_job = client.batches.create(
model="gemini-2.5-flash",
src=uploaded_batch_requests.name,
config={'display_name': "batch_job-1"}
)