Gemini Embedding 2パブリックプレビュー公開

Geminiアーキテクチャをベースにした初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」が、Gemini APIおよびVertex AIを通じてパブリックプレビューとして公開。主にテキスト専用であった従来のモデルから拡張され、テキスト、画像、動画、音声、PDFなどのドキュメントを単一の埋め込み空間にマッピングし、100以上の言語にわたって意味的意図（semantic intent）を捕捉可能。画像のテキスト化などを経由せず、異なるメディアタイプの複雑でニュアンスのある関係性をネイティブに理解する。

#主要な変更点

テキスト: 最大8192トークンの入力コンテキストをサポート
画像: 1リクエストあたり最大6枚の画像（PNG、JPEG）を処理
動画: 最大120秒の動画（MP4、MOV）を入力
音声: 中間的な文字起こしを必要とせず、音声データをそのまま取り込み
ドキュメント: 最大6ページのPDFを直接埋め込み

#留意事項

これまでの埋め込みモデルと同様にMatryoshka Representation Learning (MRL) を採用しており、デフォルトの3072次元から次元数をダウンスケールして柔軟に出力可能。最高品質を得るためには3072、1536、768次元のいずれかを使用することが推奨されている。

#参考文献

Gemini Embedding 2: Our first natively multimodal embedding model