Gemini 2.5 会話型画像セグメンテーションの紹介

Gemini 2.5 で会話型画像セグメンテーション機能を発表。従来の単語ラベルから複雑な記述的フレーズの解析に進化。「最も遠くにある車」「傘を持っている人」など自然言語クエリで画像の特定領域を抽出可能。

オブジェクト関係、条件ロジック、抽象概念、画像内テキスト、多言語ラベルの 5 つのクエリタイプをサポート。メディア編集、安全監視、保険査定などの実用例を提示。gemini-2.5-flash モデルで単一 API による利用が可能。