2025-05-23

Gemini API に大幅な機能拡張が追加

#Google #Gemini #Google I/O #Lyria #Project Mariner

Google I/O 2025 で Gemini API に多数の新機能と改良が発表された。新モデルの追加、思考プロセスの可視化、ツール連携強化、動画理解向上など、開発者向けの大幅な機能拡張が実施。特にエージェント開発やマルチモーダル対応、リアルタイム生成機能が大幅に強化された。

API で利用できる新しいモデル：

Gemini 2.5 Flash Preview (05-20 版)：推論・コード・長文対応が向上、LMarena で#2 位を獲得
Gemini 2.5 Pro/Flash TTS：24 言語対応、複数話者での音声生成が可能
Gemini 2.5 Flash native audio dialog：Live API 経由で 30 以上の音声、24 言語での対話が可能
Lyria RealTime：WebSockets でリアルタイム音楽生成、PromptDJ-MIDI アプリで体験可能
Gemini 2.5 Pro Deep Think：複雑な数学・コーディング問題向けの実験的推論モード

API の新機能：

Thought summaries：モデルの思考プロセスを要約して可視化
Thinking budgets：思考量を制御して性能・レイテンシ・コストをバランス調整
URL Context tool：リンクから追加コンテキストを取得、Google 検索との併用可能
Computer use tool：Project Mariner のブラウザ制御機能を API 経由で提供
Structured outputs 強化：JSON Schema の$ref や tuple 構造定義をサポート
Video understanding 改良：YouTube URL 対応、動画クリッピング、可変 FPS（0.1-60fps）、3 段階解像度選択
Async function calling：Live API でバックグラウンド関数実行中も会話継続可能
Batch API：最大 24 時間処理、通常 API の半額、高いレート制限

出展：Gemini API I/O updates