Google DeepMindが9月4日、スマートフォンやPC上で実行できるオープンな埋め込みモデル「EmbeddingGemma」を発表した。小型の埋め込みモデルとしては業界トップレベルの性能を誇る。Hugging Faceなどで重みが公開されている。
2025年3月リリースの「Gemma 3」を基盤に、100以上の言語に対応する多言語学習を施したモデル。量子化によりメモリー(RAM)使用量を200MB以下に抑え、スマートフォンやノートパソコンでのリアルタイム処理を可能にした。
パラメーター数は約308M。「MTEB(Massive Text Embedding Benchmark)」ベンチマークでは、500M未満の公開型多言語テキスト埋め込みモデルとしては最高評価を獲得している。
コンテキストウィンドウは2000トークンで、RAG(Retrieval Augmented Generation)やセマンティック検索などの生成支援型アプリケーションをオフラインで実行できる。EdgeTPU上では、わずか15ms未満で埋め込み推論を完了するという高い速度も実現した。
NVIDIAは発表に合わせて、Ollamaやllama.cppと協力し、EmbeddingGemma3をPC上でより効率的に動作させる取り組みを開始した。RTX AI PCやワークステーションで効率的なRAG体験が可能になるとしている。
グーグルでは、大規模サーバーサイド処理向けに、より高品質なGemini Embeddingモデル(Gemini API 経由)をリリースしている。EmbeddingGemmaはプライバシーを重視した小型・高速なオンデバイスAI向けの選択肢として、住み分けされることになりそうだ。







