Google、マルチモーダル対応の次世代オープンLLM「Gemma 3」を発表 エージェント機能にも対応

Googleは2025年3月12日、最新のオープンソース大規模言語モデル「Gemma 3」を発表した。マルチモーダル機能を搭載し、140以上の言語をサポートするモデルとなっている。
単一のGPUやTPUで動作するモデルとしては最高峰の性能を誇り、AI開発の民主化に大きく貢献する可能性を秘めている。
4種類のサイズ展開と高いパフォーマンス
Gemma 3は、1B(10億)、4B(40億)、12B(120億)、27B(270億)という4つのパラメータサイズで提供され、開発者は特定のハードウェアや性能要件に応じて最適なモデルを選択できる。
特に27Bモデルのパフォーマンスは高い。LMArenaのベンチマークテストでは、DeepSeek-V3、OpenAIのo3-miniといった競合モデルを上回る結果を示し、単一GPU環境で動作するモデルとしては最高峰の性能を発揮した。
前世代のGemma 2と比較しても大幅な性能向上が見られ、Eloスコアは1220から1338へと飛躍的に向上している。
Gemma 3の特徴は、テキストだけでなく画像や動画も同時に処理できるマルチモーダル対応だ。1Bモデルを除く全てのサイズで、テキストだけでなく画像や短い動画も処理できる能力を持ち、視覚的データを含むアプリケーション開発の可能性を広げる。
さらに、事前に設定しておいた操作を実行する「関数呼び出し機能」や、決まったフォーマットで情報をアウトプットできる「構造化出力」をサポートしている。
これによって、タスクの自動化やAIエージェント体験の構築がより容易になっている。
安全性への配慮と多様な開発環境への対応で実用性を高める
Googleは、Gemma 3の発表と同時に、画像の安全性をチェックするためのツール「ShieldGemma 2」も導入した。
危険なコンテンツ、露骨な表現、暴力といったカテゴリで、コンテンツに自動でラベリングができる。開発者は自身のニーズに合わせて安全基準をカスタマイズでき、AIの悪用リスクを軽減することが可能だ。
開発者がGemma 3を利用する方法も多様に用意されている。
Google AI Studioを通じてブラウザ上で即座に試すことができるほか、Kaggle、Hugging Faceといったプラットフォームからモデルをダウンロードすることも可能だ。
また、Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM、Gemma.cppといった主要なAI開発ツールとの互換性も確保されており、既存の開発環境に容易に統合できる。
Gemma 3の登場は、デバイス上での高度なAIアプリケーション開発を促進するだけでなく、AI技術へのアクセスを民主化する重要な一歩となるだろう。オープンソースかつ単一のGPUで機能し、マルチモーダル性にも優れるという点は、ChatGPTなどの競合にない強みだと言える。