Gemini API に大幅な機能拡張が追加
Google I/O 2025 で Gemini API に多数の新機能と改良が発表された。新モデルの追加、思考プロセスの可視化、ツール連携強化、動画理解向上など、開発者向けの大幅な機能拡張が実施。特にエージェント開発やマルチモーダル対応、リアルタイム生成機能が大幅に強化された。
API で利用できる新しいモデル:
- Gemini 2.5 Flash Preview (05-20 版):推論・コード・長文対応が向上、LMarena で#2 位を獲得
- Gemini 2.5 Pro/Flash TTS:24 言語対応、複数話者での音声生成が可能
- Gemini 2.5 Flash native audio dialog:Live API 経由で 30 以上の音声、24 言語での対話が可能
- Lyria RealTime:WebSockets でリアルタイム音楽生成、PromptDJ-MIDI アプリで体験可能
- Gemini 2.5 Pro Deep Think:複雑な数学・コーディング問題向けの実験的推論モード
API の新機能:
- Thought summaries:モデルの思考プロセスを要約して可視化
- Thinking budgets:思考量を制御して性能・レイテンシ・コストをバランス調整
- URL Context tool:リンクから追加コンテキストを取得、Google 検索との併用可能
- Computer use tool:Project Mariner のブラウザ制御機能を API 経由で提供
- Structured outputs 強化:JSON Schema の$ref や tuple 構造定義をサポート
- Video understanding 改良:YouTube URL 対応、動画クリッピング、可変 FPS(0.1-60fps)、3 段階解像度選択
- Async function calling:Live API でバックグラウンド関数実行中も会話継続可能
- Batch API:最大 24 時間処理、通常 API の半額、高いレート制限