グーグル、スマホでも動作する小型AIモデル「EmbeddingGemma」を公開

2025年9月4日、米Google DeepMindは、スマートフォンやPC上で実行可能なオープン埋め込みモデル「EmbeddingGemma」を発表した。
量子化技術により軽量化を実現し、多言語対応や高速処理を備えた次世代のオンデバイスAI基盤として注目できる。
EmbeddingGemma、小型ながら業界最高水準の性能
Google DeepMindが発表した「EmbeddingGemma」は、2025年3月リリースのGemma 3を基盤とする最新の埋め込みモデルだ。
100以上の言語に対応する多言語学習を施し、推論の正確性と柔軟性を兼ね備える。
パラメーター数は約308Mと比較的小規模ながら、「MTEB(Massive Text Embedding Benchmark)(※)」では、500M未満の公開型多言語モデルとして最高評価を獲得した。
特筆すべきは、量子化技術によってメモリー消費を200MB以下に抑えた点である。
これにより、従来はクラウド依存だった生成支援アプリケーションを、スマートフォンやノートPCといったローカル環境で実行できるようになった。
検索を組み合わせた回答生成技術であるRAGや、セマンティック検索を含む多様なタスクを、オフライン処理可能にしている。
処理速度にも優れており、グーグルの小型チップEdgeTPU上では、15ミリ秒未満で推論を完了する。
また、NVIDIAもEmbeddingGemmaに注目している。
グーグルの発表に際して、NVIDIAはOllamaやllama.cppと連携し、EmbeddingGemmaをPC環境で効率的に活用する取り組みを開始した。
RTX AI PCやワークステーションとの組み合わせにより、ユーザーは高速かつ安定したRAG体験を得られるとされる。
※MTEB:Massive Text Embedding Benchmark。埋め込みモデルの性能を多言語で比較評価する国際的なベンチマーク。
オンデバイスAI加速へ 利便性とリスクの両面を指摘
EmbeddingGemmaの登場は、オンデバイスAI普及に大きな弾みをつける可能性がある。
従来のGeminiが大規模サーバー処理に適した設計であったのに対し、軽量のEmbeddingGemmaはプライバシーを重視する個人ユーザーや小規模環境向けに差別化できると考えられる。
クラウド接続を必須としないため、セキュリティ上の懸念を減らし、リアルタイム応答が求められるアプリケーションに適している点もメリットとなるだろう。
一方で、課題も存在する。モデルの軽量化は利便性を高めるが、大規模モデルと比べれば精度や対応範囲には限界がありそうだ。
さらに、端末性能やバッテリー消費への影響も無視できない要素となるだろう。特にスマートフォンでの長時間稼働は、ユーザー体験に影響を及ぼす可能性がある。
それでも、オフライン環境で動作する小型モデルは、新興市場や通信環境が制約される地域にとって重要な選択肢となり得る。
今後、オンデバイスAIが業務や生活に深く入り込むかどうかは、このようなモデルの普及スピードに左右されると考えられる。
関連記事 :スマホでローカル駆動する超軽量AIモデル Googleが「Gemma 3 270M」を公開
https://plus-web3.com/media/latestnews_1000_4779/