編集

Gemini API Batch Mode、50%割引で大量処理に対応

Google が Gemini API に Batch Mode を導入した。高スループット、レイテンシーが重要でないワークロード向けの新しい非同期エンドポイントで、同期 API と比較して 50%割引で提供される。

24 時間以内に結果を取得可能で、より高いレート制限を提供。複雑なクライアントサイドキューイングや再試行ロジックが不要。全リクエストを単一ファイルにパッケージ化し、ジョブを送信、完了後に結果を取得する簡単なワークフロー。

対応モデルは Gemini 2.5 Flash と Gemini 2.5 Pro。Google GenAI Python SDK で利用可能。

python
uploaded_batch_requests = client.files.upload(file="batch_requests.json")
batch_job = client.batches.create(
    model="gemini-2.5-flash",
    src=uploaded_batch_requests.name,
    config={'display_name': "batch_job-1"}
)

#参考文献

編集