グーグル、スマホでも動作する小型AIモデル「EmbeddingGemma」を公開

PlusWeb3 編集部 Web3・AI専門メディア

2025年9月10日 (更新: 2026年7月15日)

2025年9月4日、米Google DeepMindは、スマートフォンやPC上で実行可能なオープン埋め込みモデル「EmbeddingGemma」を発表した。
量子化技術により軽量化を実現し、多言語対応や高速処理を備えた次世代のオンデバイスAI基盤として注目できる。

EmbeddingGemma、小型ながら業界最高水準の性能

Google DeepMindが発表した「EmbeddingGemma」は、2025年3月リリースのGemma 3を基盤とする最新の埋め込みモデルだ。
100以上の言語に対応する多言語学習を施し、推論の正確性と柔軟性を兼ね備える。
パラメーター数は約308Mと比較的小規模ながら、「MTEB（Massive Text Embedding Benchmark）（※）」では、500M未満の公開型多言語モデルとして最高評価を獲得した。

特筆すべきは、量子化技術によってメモリー消費を200MB以下に抑えた点である。
これにより、従来はクラウド依存だった生成支援アプリケーションを、スマートフォンやノートPCといったローカル環境で実行できるようになった。
検索を組み合わせた回答生成技術であるRAGや、セマンティック検索を含む多様なタスクを、オフライン処理可能にしている。
処理速度にも優れており、グーグルの小型チップEdgeTPU上では、15ミリ秒未満で推論を完了する。

また、NVIDIAもEmbeddingGemmaに注目している。
グーグルの発表に際して、NVIDIAはOllamaやllama.cppと連携し、EmbeddingGemmaをPC環境で効率的に活用する取り組みを開始した。
RTX AI PCやワークステーションとの組み合わせにより、ユーザーは高速かつ安定したRAG体験を得られるとされる。

※MTEB：Massive Text Embedding Benchmark。埋め込みモデルの性能を多言語で比較評価する国際的なベンチマーク。

オンデバイスAI加速へ　利便性とリスクの両面を指摘

EmbeddingGemmaの登場は、オンデバイスAI普及に大きな弾みをつける可能性がある。
従来のGeminiが大規模サーバー処理に適した設計であったのに対し、軽量のEmbeddingGemmaはプライバシーを重視する個人ユーザーや小規模環境向けに差別化できると考えられる。
クラウド接続を必須としないため、セキュリティ上の懸念を減らし、リアルタイム応答が求められるアプリケーションに適している点もメリットとなるだろう。

一方で、課題も存在する。モデルの軽量化は利便性を高めるが、大規模モデルと比べれば精度や対応範囲には限界がありそうだ。
さらに、端末性能やバッテリー消費への影響も無視できない要素となるだろう。特にスマートフォンでの長時間稼働は、ユーザー体験に影響を及ぼす可能性がある。

それでも、オフライン環境で動作する小型モデルは、新興市場や通信環境が制約される地域にとって重要な選択肢となり得る。
今後、オンデバイスAIが業務や生活に深く入り込むかどうかは、このようなモデルの普及スピードに左右されると考えられる。

関連記事：スマホでローカル駆動する超軽量AIモデル　Googleが「Gemma 3 270M」を公開
https://plus-web3.com/latestnews_1000_4779/

グーグル、スマホでも動作する小型AIモデル「EmbeddingGemma」を公開

EmbeddingGemma、小型ながら業界最高水準の性能

オンデバイスAI加速へ 利便性とリスクの両面を指摘

PlusWeb3 編集部

関連する最新記事

全国のモノレール6社参加、NFT活用の鉄印ラリー 全6種購入・申請で「制覇鉄印」

IQOS初の世界旗艦店が銀座に開業 既存ストアは閉店へ

GoogleのAIエージェント「Gemini Spark」が日本語対応 24時間稼働で個人業務の自動化を実現

Web3・AI・ディープテック領域のキャリアに興味がありますか？

オンデバイスAI加速へ　利便性とリスクの両面を指摘

全国のモノレール6社参加、NFT活用の鉄印ラリー　全6種購入・申請で「制覇鉄印」

IQOS初の世界旗艦店が銀座に開業　既存ストアは閉店へ

GoogleのAIエージェント「Gemini Spark」が日本語対応　24時間稼働で個人業務の自動化を実現